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Resumen 



La Inteligencia Artificial (lA) siempre ha intentado emular la mayor vir- 
tud del ser humano: su inteligencia. Sin embargo, y aunque han habido mul- 
titud de esfuerzos por conseguirlo, a simple vista nos percatamos de que su 
inteligencia apenas llega a asemejarse a la de los seres humanos. 

Los metodos existentes hoy en dia para evaluar la inteligencia de la lA, 
se centran en utilizar tecnicas empiricas para medir el rendimiento de los 
algoritmos en ciertas tareas concretas (e.g., jugar al ajedrez, resolver un 
laberinto o aterrizar un helicoptero). No obstante, estos metodos no resultan 
apropiados si lo que queremos es evaluar la inteligencia general de la lA y, 
aun menos, si pretendemos compararla con la de los seres humanos. 

En el proyecto ANYNT se ha disefiado un nuevo metodo de evaluacion 
que trata de evaluar la lA a partir de nociones computacionales bien cono- 
cidas utilizando problemas lo mas generales posibles. 

Este nuevo metodo sirve para evaluar la inteligencia general (la cual nos 
permite aprender a resolver cualquier nuevo tipo de problema al que nos 
enfrentamos) y no para evaluar unicamente el rendimiento en un conjunto 
de tareas especificas. Este metodo no solo se centra en medir la inteligencia 
de algoritmos, sino que esta pensado para poder evaluar cualquier tipo de 
sistema inteligente (seres humanos, animales, lA, ^extraterrestres?, . . . ) y 
a la vez situar sus resultados en una misma escala y, por lo tanto, poder 
compararlos. 

Este nuevo enfoque de evaluacion de la lA permitira (en un futuro) eva- 
luar y comparar cualquier tipo de sistema inteligente conocido o aun por 
construir /descubrir ya sean artificiales o biologicos. 

En esta tesis de master pretendemos comprobar que este nuevo metodo 
ofrece unos resultados coherentes al evaluar algoritmos de lA mediante el 
diseiio e implemcntacion dc prototipos dc test dc inteligencia universales y 
su aplicacion a diferentes sistemas inteligcntcs (algoritmos dc lA y seres hu- 
manos) . Del estudio analizamos si los resultados obtenidos por dos sistemas 
intehgentes distintos se encuentran correctamente situados en la misma es- 
cala y se proponcn cambios y refinamicntos a cstos prototipos con el fin dc, 
en un futuro, poder lograr un test de inteligencia verdaderamente universal. 
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Abstract 



Artificial Intelligence (AI) has always tried to emulate the greatest virtue 
of humans: their intelligence. However, although there have been many 
efforts to reach this goal, at a glance we notice that the intelligence of AI 
systems barely resembles that of humans. 

Today, available methods that assess AI systems are focused on using em- 
pirical techniques to measure the performance of algorithms in some specific 
tasks (e.g., playing chess, solving mazes or land a helicopter). However, these 
methods are not appropriate if we want to evaluate the general intelligence 
of AI and, even less, if we compare it with human intelligence. 

The ANYNT project has designed a new method of evaluation that tries 
to assess AI systems using well known computational notions and problems 
which are as general as possible. 

This new method serves to assess general intelligence (which allows us to 
learn how to solve any new kind of problem we face) and not only to evaluate 
performance on a set of specific tasks. This method not only focuses on 
measuring the intelligence of algorithms, but also to assess any intelligent 
system (human beings, animals, AI, aliens?, ...), and letting us to place 
their results on the same scale and, therefore, to be able to compare them. 

This new approach will allow us (in the future) to evaluate and compare 
any kind of intelligent system known or even to build/find, be it artificial or 
biological. 

This master thesis aims at ensuring that this new method provides con- 
sistent results when evaluating AI algorithms, this is done through the design 
and implementation of prototypes of universal intelligence tests and their ap- 
plication to different intelligent systems (AI algorithms and humans beings). 
Prom the study we analyze whether the results obtained by two different 
intelligent systems arc properly located on the same scale and we propose 
changes and refinements to these prototypes in order to, in the future, being 
able to achieve a truly universal intelligence test. 
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Resum 



La Intel-ligencia Artificial (lA) sempre ha intentat emular la major virtut 
dels essers humans: la seua intel-ligencia. No obstant aixo, i encara que hi 
ha hagut multitud d'esforgos per aconseguir-ho, a simple vista ens adonem 
que la seua intel-ligencia apenes arriba a ssemblar-se a la dels essers humans. 

Els metodes existents hui en dia per avaluar la intel-ligencia dels sistemes 
d'lA, se centren en utilitzar tecniques empiriques per a mesurar el rendiment 
dels algoritmes en certes tasqucs concretes (e.g., jugar als escacs, resoldre 
un laberint o aterrar un helicopter). No obstant aixo, aquests metodes no 
resulten apropiats si el que volem es avaluar la intel-ligencia general dels 
sistemes d'lA i, encara menys, si pretenem comparar-la amb la dels essers 
humans. 

En el projecte ANYNT s'ha dissenyat un nou mctodc d'avaluacio que 
tracta d'avaluar la lA a partir de nocions computacionals ben conegudes 
utilitzant prohlemes el mes generals possibles. 

Aquest nou metode servix per avaluar la intel-ligencia general (la qual 
ens permet aprendre a resoldre qualsevol nou tipus de problema al qual ens 
enfrontem) i no per avaluar unicament el rendiment en un conjunt de tasques 
especifiques. Aquest metode no nomes es centra en mesurar la intel-ligencia 
d'algoritmes, sino que esta pensat per a poder avaluar qualsevol tipus de 
sistema intel-ligent (essers humans, animals, lA, /,extraterrestrcs?, ...) i al 
mateix temps situar els sens resultats en una mateixa escala i, per tant, 
poder comparar-los. 

Aquest nou enfocament d'avaluacio dc la lA pcrmctra (cn un futur) ava- 
luar i comparar qualsevol tipus de sistema intcl-ligent conegut o inclus per 
construir/descubrir ja siguen artificials o biologies. 

En aquesta tesi de master pretenem comprovar que aquest nou metode 
ofcrix uns resultats cohercnts cn avaluar algoritmes d'lA per mitja del disseny 
i la implcmentacio de prototips de test d'intel-ligencia universals i la seua 
aplicacio a diferents sistemes intel-ligents (algoritmes d'lA i essers humans). 
De I'estudi analitzem si els resultats obtinguts per dos sistemes intel-ligents 
distints cs troben correctament situats cn la mateixa escala i es proposen 
canvis i refinaments a aquests prototips a fi de, en un futur, poder aconseguir 
un test d'intel-ligencia verdaterament universal. 
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Capitulo 1 
Introduccion 



El objetivo de la Inteligencia Artificial (lA) ha sido, desde siempre, dotar 
de comportamiento a las maquinas (o algoritmos) para que lleguen a realizar 
tareas que en los seres humanos requieren de inteligencia. El fin ultimo es 
que parezcan mas inteligentes (o al menos desde nuestro punto de vista). 

Uno de los objetivos propuestos por la lA es que los algoritmos sean 
capaces de aprender a resolver nuevos problemas por si solos en lugar de que 
se les tenga que asistir continuamente cada vez que se enfrenten a un nuevo 
problema. En el momento en el que se construyan estos algoritmos capaces 
de aprender, habremos construido un sistema al que realmente podremos 
calificar como inteligente. 

Uno de los principales problemas que existe en la lA, es que no existe 
ningiin metodo para medir o evaluar esta inteligencia, y si existen, no estan 
enfocados a medir propiamente la inteligencia, sino mas bien el rendimiento 
que tienen los algoritmos en aprender a resolver ciertas tareas predefinidas. 

En lugar de construir mejores metodos para evaluar a los algoritmos, la 
disciplina se ha centrado casi exclusivamente en disehar nuevos algoritmos 
(o mejorax los ya existentes) de aprendizaje, planificacion, reconocimiento 
de formas, razonamiento, etc, para que funcionen mejor en las tareas en las 
que se les va a evaluar. Para ello, los disefiadores ajustan sus algoritmos para 
que obtengan buenos resultados en estas tareas. 

Aunque cada vez se obtienen mejores resultados en estas evaluaciones, no 
por ello significa que haya habido algun avance significativo en la lA general, 
sino mas bien, que los disefiadores de algoritmos comprenden cada vez mejor 
los detalles y entresfjos de las tareas a las que se enfrentan sus algoritmos y 
como deben ajustarlos para que obtengan mejores resultados. 

1.1. Motivacion 

Entre los dfstfntos metodos que existen hoy en dfa para evaluar la inte- 
ligencia, encontramos a los tests psicometricos. Estos tests tienen una larga 
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historia [34], son efectivos, faciles de administrar, rapidos y bastante estables 
cuando se utilizan sobre un mismo individuo (humano) a traves del tiempo. 
De hecho, ban proporcionado una de las mejores definiciones practicas de 
inteligencia: "la inteligencia es lo que se mide con los tests de inteligencia". 
Sin embargo, los tests psicometricos son antropomorficos: no pueden evaluar 
la inteligencia de otros sistemas que no sean el Homo sapiens, tambien son 
estaticos y estan basados en un tiempo de prueba limite. Nuevas aproxima- 
ciones en la psicometria, como la 'Teoria de Respuesta al Item' o en ingles 
'Item Response Theory' (IRT), permiten la seleccion de items basandose en 
la habilidad estimada y adaptando el test al nivel del individuo que se esta 
examinando. La Teoria de Respuesta al Item es una herramienta promete- 
dora, pero estos modelos aun no son la corriente principal de estos tests en 
psicometria (|8]). 

Este es uno de varios esfuerzos que han intentado establecer "a priori" 
como deberia ser un test de inteligencia (p. ej. [7]) y a partir de ahi encontrar 
adaptaciones para distintos tipos de sujetos. Sin embargo, se necesitan (en 
general) diferentes versiones de los tests psicometricos para evaluar nihos de 
distintas edades y para evaluar adultos con diversas patologias, ya que los 
tests psicometricos para los Homo sapiens adultos conflan en que los sujetos 
posean de antemano ciertas habilidades y conocimientos. 

Lo mismo ocurre para otros animales. Los psicologos comparativos y 
otros cientificos en el area de la cognicion comparada normalmente disenan 
tests especificos para distintas especies. Podemos ver un ejemplo de estos 
tests especializados para niiios y chimpances en [18] . Tambien se ha podido 
comprobar que los tests psicometricos no funcionan para las maquinas en 
el estado actual de la inteligencia artificial [33], ya que se pueden engafiar 
utilizando programas relativamente simples y especializados. Sin embargo, la 
principal desventaja de los tests psicometricos para evaluar sujetos distintos 
a los humanos, es que no poseen tras ellos una definicion matematica. 

Alan M. Turing propuso el primer test de inteligencia para maquinas |38) . 
el juego de la imitacion (comunmente conocido como el test de Turing) |30| . 
En este test, a un sistema se le consider a inteligente si es capaz de imitar a 
un humano (p. ej. ser indistinguible de un humano) durante un periodo de 
tiempo y siguiendo un tema en un dialogo (teletexto) con uno o mas jueces. 
Aunque ha sido ampliamente aceptado como referenda para comprobar si la 
inteligencia artificial alcanzara la inteligencia de los humanos, ha generado 
amplios debates y se han sugerido muchas variantes y alternativas [30j. El 
test de Turing y las ideas relacionadas presentan varios problemas para ser 
un test de inteligencia para maquinas: (1) el test de Turing es antropomorfico 
(mide la humanidad, no la inteligencia), (2) no es gradual (no proporciona 
una puntuacion), (3) no es practico (cada vez es mas facil engahar a los jueces 
sin demostrar inteligencia y requiere mucho tiempo para obtener evaluaciones 
fiables), y (4) requiere de un juez humano. 

Una aproximacion mas reciente y singular de un test de inteligencia para 
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maquinas es el llamado CAPTCHA 'Completely Automated Public Turing 
test to tell Computers and Humans Apart' (o en castellano 'test de Tu- 
ring publico completamente automatizado para distinguir entre humanos y 
comput adores') [40j|iT]. Los CAPTCHAs son problemas de reconocimiento 
de caracteres donde las letras aparecen distorsionadas y estas distorsiones 
hacen diflcil que las maquinas (bots) puedan reconocer las letras. El obje- 
tivo inmediato de un CAPTCHA es distinguir entre humanos y maquinas, 
mientras que el objetivo final es prevenir que los bots y otro tipo de maquinas 
o programas sean capaces de crear cuentas, publicar comentarios u otro tipo 
de tareas que solo los humanos deberian poder hacer. El problema con los 
CAPTCHAs es que cada vez se estan haciendo mas y mas diflciles para los 
humanos, ya que los bots se estan especializando y mejorando en ser capaces 
de leerlos. Cada vez que se desarrolla una nueva tecnica CAPTCHA, apare- 
cen nuevos bots capaces de pasar el test. Esto fuerza a los desarroUadores de 
CAPTCHA a cambiarlos una y otra vez, y asi continuamente. A pesar de que 
los CAPTCHAs funcionan razonablemente bien hoy en dia, en unos 10 o 20 
arios, se necesitaran hacer las cosas tan diflciles y generales que los humanos 
necesitaran mas tiempo y varios intentos para conseguir resolverlos. 

Tambien existen otras propuestas menos conocidas para la medicion de 
la inteligencia, muchas de las cuales son informales o meramente filosoficas, 
y ninguna de ellas ha sido puesta en practica. Desde un punto de vista 
ingenieril, tambien han habido varias propuestas. Podemos destacar la serie 
de 'workshops on Performance Metrics' para sistemas inteligentes (ver p. ej. 
[25]) mantenido desde el 2000, el cual tfpicamente se refiere a escenarios, 
sistemas o aplicaciones muy limitadas o especializadas. Y, finalmente, ha 
habido un uso impreciso y general del termino 'Cociente de Inteligencia de 
Maquinas' o en ingles Machine Inteligence Quotient (MIQ). Se ha utilizado 
de distintas maneras en [47] [48] [39j , especialmente en el area de los sistemas 
difusos, pero sin ninguna definicion precisa. En cualquier caso, la nocion de 
MIQ es inapropiada debido a que el cocient^ se obtiene en psicometria a 
partir de una poblacion de individuos de una especie en cierta etapa dada 
de su desarrollo (nihos, adultos), el cual es posible para humanos, pero no 
tiene sentido alguno para sistemas de inteligencia artificial ya que no existe 
ninguna nocion de especie ni ninguna muestra homogenea. 

'^Originalmente el cociente era un cociente real de la edad mental estimada de un 
nifio en comparacion con su edad biologica. Hoy en dia la 'Q' en IQ es una reliquia 
historica, el cociente es una puntuacion normalizada de acuerdo a las puntuaciones de 
una poblacion, tipicamente asumiendo una distribucion normal con una media igual a 
100. Esta normalizacion es mucho mas diflcil de hacer para maquinas, ya que no esta 
claro sobre que maquinas promediar. Es esta tiltima interpretacion relativa del cociente 
de inteligencia y su aplicacion en maquinas lo que criticamos aqui. 
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1.2. Carencias de las tecnicas anteriores 



Todos los metodos de evaluacion anteriores resultan inapropiados si que- 
remos evaluar la inteligencia de algoritmos (o maquinas). Es cierto que con 
alios es posible comprobar si una maquina parece o no liumana (test de Tu- 
ring) o si son capaces de reconocer caracteres igual de bien que los liumanos 
(CAPTCHAs), pero resultan inutiles si queremos proporcionar siquiera una 
estimacion de su inteligencia. Estas tecnicas, como muclio, pueden darnos 
una idea general de algunas de sus capacidades, pero no nos ofrecen ningun 
valor de su capacidad de aprendizaje. 

Por otro lado, los 'workshops on Perfornance Metrics' si tratan de evaluar 
la inteligencia y la capacidad de aprendizaje de los algoritmos. El problema 
en este tipo de metricas de rendimiento, es que se suelen elegir problemas 
especificos sin ningun fundamento teorico tras su eleccion, por lo que, real- 
mente, solo evaluan las capacidades necesarias para resolver estos problemas 
concretos y no las capacidades generales de los algoritmos. Sin embargo, es- 
te tipo de evaluaciones siguen siendo utiles, ya que permiten evaluar si los 
algoritmos son capaces de resolver y desenvolverse correctamente en tareas 
especificas de la vida real, pero dejan de ser utiles cuando tratamos de evaluar 
su capacidad general de aprendizaje. 

1.3. Objetivos 

Durante los ultimos afios se han intentado construir algunos metodos de 
evaluacion que midan la inteligencia general de los algoritmos. Entre ellos po- 
demos encontrar el proyecto ANYNlj^ el cual ha disehado un nuevo sistema 
de evaluacion cuyo objetivo es el de evaluar a estos algoritmos construyendo 
tests a partir de nociones computacionales bien conocidas. Para conseguir 
evaluar la inteligencia general, en este proyecto se ha disehado e implemen- 
tado una clase de entornos lo mas general posible, la cual es la encargada de 
proporcionar los entornos en donde se evaluara a los agentes. 

El objetivo principal de esta tesis es comprobar si la clase de entornos 
desarroUada en el proyecto ANYNT realmente cumple con las expectativas 
puestas en ella. Para ello, comprobamos si se obtienen resultados coherentes 
al evaluar distintos sistemas inteligentes (en concreto se han evaluado a algu- 
nos humanos y se ha implementado y evaluado un algoritmo de lA conocido 
como Q-learning). 

En esta tesis no intentamos comprobar si la clase de entornos implemen- 
tada cumple o no con las propiedades formales co las que se diseho. Estas 
propiedades ya fueron comprobadas en un trabajo previc|^ realizado en este 
proyecto, en donde ya se concluyo que la clase de entornos las posee. 

^http://users.dsic.upv.es/proy/ anynt / 

^En este trabajo previo se implemento gran parte de la estructura de la aproximacion 
a la clase de entornos y, posteriormente, se realizaron los experimentos oportunos para 
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En esta tesis hemos analizado si la clase de entornos desarrollada fun- 
ciona (tal y como se espera de ella) en la practica a partir de los siguientes 
experimentos: 

1. La clase de entornos resulta factible en la practica para evaluar sistemas 
de lA. Para concluir esto, evaluamos un algoritmo de lA estandar y 
comprobamos si sus resultados en las tareas generadas con nuestra 
clase de entornos son colierentes. 

2. La diferencia en inteligencia de distintos sistemas que se han evaluado 
utilizando estos tests, se corresponde con la diferencia real esperada. 
Para ello, aplicamos los mismos tests a humanos y algoritmos de I A y 
comparamos los resultados obtenidos por ambos sistemas. 

Podemos ver los resultados de estos experimentos en los Capitulos [5]y |6] 
respectivamente. 

Organizacion de este documento 

El resto de esta memoria esta organizada del siguiente modo: En el Ca- 
pitulo [2] veremos los conceptos basicos que necesitamos conocer para com- 
prender este trabajo (aprendizaje por refuerzo, complejidad Kolmogorov, 
algoritmos de Markov, . . . ) y las distintas evaluaciones de inteligencia que 
se han venido realizando en seres humanos y algoritmos de lA hasta la fe- 
cha. En el Capitulo |3] veremos el marco general de los tests desarroUados en 
el proyecto ANYNT. En el Capitulo [4] describimos la aproximacion imple- 
mentada de estos test. En el Capitulo [5] evaluamos un algoritmo clasico de 
lA (Q-learning) para comprobar que la clase de entornos desarrollada fun- 
ciona coherentemente en la practica para este tipo de sistema inteligente. 
En el Capitulo [6] evaluamos conjuntamente dos sistemas inteligentes distin- 
tos: el Homo sapiens (los humanos) y un algoritmo de lA (nuevamente el 
Q-learning) y analizamos si los resultados obtenidos concuerdan con la di- 
ferencia real en inteligencia entre ambos sistemas. El Capitulo [7] propone 
algunas ideas sobre hacia donde deberia encaminarse el proyecto segun los 
resultados obtenidos en esta tesis. Y, finalmente, en el Capitulo [8] veremos a 
que conclusiones hemos llegado con este trabajo y cual es el trabajo futuro 
en este proyecto. 



comprobar que estas propiedades se cumplian. Podemos ver la memoria de este trabajo 
en 'http:/ /users. dsic.upv.es/proy/anynt/Memoria.pdf. 
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Capitulo 2 



Precedentes 



En este capitulo damos a conocer los conceptos basicos necesarios para 
comprender el trabajo realizado en el proyecto ANYNT y liacemos un peque- 
no repaso a los distintos tipos de evaluaciones que se han estado realizando 
historicamente en humanos, otros animales y maquinas. 

2.1. Conceptos basicos 

2.1.1. Entornos 

Los entornos, entre muchas otras defini clones, se pueden considerar "mun- 
dos" (con sus propias caracteristicas y propiedades) en donde cierta cantidad 
de individuos (o agentes) pueden interactuar. Los entornos disponen de un 
estado intcrno, cl cual sc Ic proporciona a los agentes como parte de su 
'percepcion' del entorno. Ademas, conforme los agentes van interactuando 
con el entorno, este puede cambiar su estado en funcion de sus reglas de 
comport amiento y de las acciones que realicen los agentes. 

Estos entornos se suelen utilizar para modelar varios tipos de problemas. 
Imaginemos, por ejemplo, un laberinto. Los laberintos no son mas que un 
espacio cerrado con un linico punto de entrada y otro de salida y un conjunto 
de pasillos y paredes que nos permiten movernos o no a traves del laberin- 
to. En algunos de estos laberintos se necesitan objetos (como por cjcmplo 
una Have para abrir una puerta) para conseguir salir de ellos. Segun esta 
definicion, cualquier entorno (natural o artificial) con un espacio en donde 
podamos identificar paredes que nos interrumpan el paso, pasillos que po- 
damos traspasar y Haves que nos permitan abrir puertas sera un laberinto. 
Pero los laberintos son algo mas que un conjunto de paredes y pasillos. En 
realidad son un problema en donde se debe descubrir, a partir de la entrada, 
cual es el camino que nos conduce a la salida, pudiendo utilizar (en algunos 
casos) objetos para conseguirlo. Ademas, segiin como se construya el espacio 
y la capacidad del agente para manejar este tipo de problemas, el problema 
del laberinto puede hacerse mas o menos complejo. 
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Ademas de los laberintos, otros muchos problemas pueden definirse uti- 
lizando entornos, como p. ej. juegos de mesa o aparcar/aterrizar/atracar un 
vehi'culo. Cada uno de estos problemas (a su vez) puede modelarse de forma 
mas o menos compleja, haciendolos mas o menos diflciles de resolver: el ta- 
mano de las pistas de aterrizaje, haciendo las reglas de los juegos de mesa 
mas sever as, .... 

Estos entornos tambien pueden ser de distintos tipos; como p. ej. los 
entornos sociales, en donde varios agentes interactuan a la vez. Estos entornos 
suelen ser mas complejos y por lo tanto mas dificiles de describir, ya que no 
solo contienen un espacio y varios objetos y agentes, sino que ademas, estos 
agentes suelen tener un comportamiento complejo (lo cual suele ser difi'cil de 
describir). Este tipo de entornos se suelen utilizar para describir problemas 
en donde los agentes deberan cooperar o rivalizar con otros agentes. 

Antes hablabamos de que los agentes pueden modificar el estado de un 
entorno con sus acciones. Este tipo de entornos son los Uamados reactivos y 
suponen un mayor problema para los agentes, ya que, no solo deben moverse 
por el entorno para conseguir su objetivo, sino que tambien necesitan com- 
prender como se modifica el entorno en funcion de sus acciones para resolver 
el problema. 

Ahora imaginemos un entorno en donde combinemos las caracteristicas 
de los entornos sociales y los reactivos. En este caso tenemos un problema 
muchisimo mayor que los anter lores por separado. Ya no solo el agente es ca- 
paz de modificar el entorno, sino que el resto de agentes tambien son capaces 
de hacerlo. Por lo que en este caso el agente debera comprender correcta- 
mente al comportamiento del resto de agentes que modifican el entorno a la 
vez que dcbcra adaptar el suyo propio para conseguir resolver el problema. 

Como podemos ver, las capacidades de estos entornos son lo suficiente- 
mente amplias como para formular cualquier tipo de problema imaginable. 
Sin embargo, la eleccion del tipo de entorno que se utilice hace que los pro- 
blemas que se formulen tcngan cierto tipo de propiedades y sc ncccsitcn de 
habilidades concretas por parte de los agentes para conseguir resolverlos. 
Por lo tanto, cuanto mas generales sean estos entornos, es de esperar que se 
necesiten de mayores habilidades por parte del agente para poder resolverlos. 

2.1.2. Aprendizaje por refuerzo 

El objetivo del aprendizaje por refuerzo (RL) es utilizar premios y casti- 
gos (recompensas positivas y negativas) para que el agente aprenda a resolver 
un problema. En funcion de los refuerzos que perciba, el agente reconfigura 
su comportamiento modificando las acciones que realizara en el futuro para 
asi obtener el mayor numero posible de premios. Como resultado a este pro- 
ceso, el agente "aprcndc" que debe hacer en estos problemas para resolverlos 
correctamente. Dicho de forma breve: en el aprendizaje por refuerzo se trata 
de conseguir que un agente actue en un entorno de manera que maximice las 
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recompensas que obtiene por sus acciones. 

La vision mas general de este tipo de aprendizaje situa a un agente inter- 
actuando con un entorno a traves de observaciones, acciones y recompensas. 
Generalmente se asumen entornos discretos; con tiempo, acciones y obser- 
vaciones discreta^ Las acciones estan limitadas por un conjunto finito de 
simbolos A (p. ej. {izquierda,derecha,arriba,abajo}), las recompensas se 
recogen a partir de cualquier subconjunto TZ de numeros racionales entre 
y 1 y las observaciones tambien estan limitadas por un conjunto finito O 
de posibilidades (p. ej. una cuadricula de celdas de n x m con los objetos 
que se encuentran dentro). Las observaciones representan la situacion actual 
del entorno, la cual puede ser completamente observable (existe una relacion 
directa entre la observacion que proporciona el entorno y su estado) o par- 
cialmente observable (solo se observa parte del estado del entorno). En una 
interaccion, una accion es la respuesta que realiza un agente a la observacion 
que le ha proporcionado el entorno y, finalmente, el entorno le devolvera al 
agente una recompensa (o refuerzo) en funcion de su comportamiento. Estas 
interacciones de los agentes con los entornos se realizan en un tiempo dis- 
creto, de modo que en cada unidad de tiempo se realizara una interaccion. 



Podemos ver una vision general de esta interaccion en la Figura 2.1 



observacion 




Figura 2.1: Vision general de la interaccion entre un agente y un entorno. 

La sefial de refuerzo puede ser inmediata o retardada; los refuerzos inme- 
diatos representan una critica para cada accion justo despues de realizarla, 
por lo que la informacion aportada por el refuerzo en este caso es local a cada 
accion. Por el contrario, en el caso retardado, los refuerzos no se dan tras 
realizar cada accion, sino al completar la secuencia de acciones empleadas 
para resolver el problema, siendo (en este caso) una estimacion global del 
comportamiento. Tambien existen situaciones hibridas donde las recompen- 
sas positivas no son inmediatas tras realizar una accion en la buena direccion, 

^Es posible modelar muchos de los problemas de tiempo continue utilizando entornos 
con tiempo "discrete", por lo que utilizar tiempos discretos no supone ninguna perdida de 
generalidad. 
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pero tampoco existe una tarea o problema a resolver. 

El agente observa el entorno para recoger informacion que le permita mo- 
dificar su comportamiento, aprendiendo asi a incremental sus recompensas. 
Como dijimos anteriormente, el objetivo del aprendizaje por refuerzo es la 
utilizacion de las recompensas para que el agente ajuste su comportamiento 
(su funcion de agente). Por tanto, nuestro agente no sera mas que una fun- 
cion que, recibiendo como entrada una percepcion del entorno, devolvera la 
siguiente accion a realizar. 

Las aplicaciones del aprendizaje por refuerzo son multiples, desde robots 
moviles que aprenden a salir de un laberinto, programas de ajedrez que 
aprenden cuales son las mejores secuencias de movimientos para ganar un 
juego o un brazo robotico que aprende como mover sus articulaciones para 
lograr el movimiento final deseado. 

Existen multitud de algoritmos para abordar el problema del aprendizaje 
por refuerzo. Algunos de estos algoritmos hacen suposiciones sobre los en- 
tornos en los que van a interactuar, como por ejemplo que sean 'Procesos de 
decision de Markov' en ingles 'Markov Decision Process' (MDP), mientras 
que otros algoritmos tratan de abordar el problema contemplando entornos 
mas generales. Uno de los algoritmos referentes en el aprendizaje por refuerzo 
es la tecnica conocida como Q-learning |44) |37]. 

2.1.3. Q-learning 

Q-learning es una tecnica de aprendizaje por refuerzo que trata de apren- 
der una funcion accion-valor la cual indica la utilidad esperada al realizar 
una accion concreta en un estado dado. Uno de los puntos fuertes de Q- 
learning es que es capaz de comparar la utilidad esperada de las acciones 
disponibles sin la necesidad de tener un modelo del entorno, siendo a su vez 
una de sus limit aciones, ya que, al no disponer de un modelo, no es capaz 
de generalizar lo suficiente y no acaba de "comprender" bien el entorno con 
el que interactua. 

El modelo del problema consiste en un agente, un conjunto de estados 
(5) y un conjunto de acciones por estado (^4). El agente puede moverse de un 
estado a otro realizando una accion y cada estado le proporciona al agente 
una recompensa (un numero natural o real). Por lo que el objetivo del agente 
es maximizar su recompensa total y consigue esto aprendiendo que accion 
ofrece la mayor recompensa para cada estado. 

Por lo tanto, el algoritmo tiene una funcion que calcula la calidad (Qua- 
lity) de una combinacion estado-accion: 

Q:S X A^R 

Antes de comenzar el aprendizaje, la matriz Q devuelve un valor prefijado 
elegido por el disenador. Entonces, cuando el agente realiza una accion a e A 

■^Esta definicion de Q-learning ha sido obtenida de la Wikipedia. 
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en un cstado s e S j sele proporcione la recompensa (cl cstado ha cambiado) 
se calcula cl micvo valor para ese estado y esa accion. El miclco del algoritmo 
es una simple iteracion de actualizacion de valores, en el cual se modifica el 
valor anterior haciendo una correccion basandose en la nueva informacion 
del siguiente modo: 

Valor aprendido 
[' ^ 1 

Q{st,at) <- Q(st,at)+at(st,at)x R{st+i) + 7 maxQ(st+i, oj+i) -(5(st, at) 

L ot+i J 

Donde Q{st, at) es el valor de la matriz Q para la accion oj en el estado 
St, at{st, at) es el ritmo de aprendizaje (learning rate) con < a ^ 1 (puede 
ser el mismo para todos los pares), R{st+i) es la recompensa observada 
en la interaccion actual, 7 es el factor de descuento (discount factor) con 
^ 7 < 1 y maxa^^^ Q{st+i, dt+i) es el maximo valor que se espera obtener 
en la siguiente interaccion. 

Cada vez que el agente tiene que elegir una accion (at) en un estado (st), 
consulta en su matriz Q cual es la accion que mayor valor tiene para ese 
estado y, tras recibir la recompensa correspondiente a la accion realizada, se 
actualiza su valor {Q{at, st)) con la formula antes vista. 

Ritmo de aprendizaje a (Learning rate) 

El ritmo de aprendizaje (con < a ^ 1) determina hasta que punto 
la nueva informacion adquirida sobrescribira a la informacion antigua. Un 

factor de hara que el agente no aprenda nada (por eso a nunca podra 
ser igual a 0), mientras que un factor de 1 hara que el agente considere 
linicamente la informacion mas reciente. 

Factor de descuento 7 (Discount factor) 

El factor de descuento (con ^ 7 < 1) determina la importancia de las 
recompensas futuras. Un factor de hara al agente "oportunista", conside- 
rando solo las recompensas actuales, mientras que con un factor proximo 
a 1 hara que se esfuerce por obtener recompensas a mas largo plazo. Si el 
factor de descuento se igualara o excediera a 1, los valores de la matriz Q 
divergerian, por lo que esta situacion suele evitarse. 

2.1.4. Complejidad Kolmogorov 

En la teoria de informacion algoritmica, la complejidad Kolmogorov de 
un objeto es la cantidad de recursos computacionales necesarios para des- 
cribir ese objeto. A la complejidad Kolmogorov tambien se la conoce como 
'complejidad descriptiva', 'complejidad Kolmogorov-Chaitin' o 'complejidad 
del tamafio del programa'. 
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Para definir la complejidad Kolmogorov primero tenemos que describir 
un lenguaje dc dcscripcion para cadenas. Esta descripcion puede ser, por 
ejemplo, la de un lenguaje de programacion como lo es C o Java. Si p es 
un programa (escrito en C o Java, por ejemplo) ejecutado en una maquina 
de referenda U que obtiene como salida la cadena x, entonces p es una 
descripcion para x en la maquina de referenda U. 

La relevancia de la maquina de referenda U depende sobrctodo del tama- 
no de X. Ya que cualquier maquina que sea Turing-completa puede emular a 
cualquier otra, se mantiene que para todo par de maquinas U y V, existe una 
constante c{U, V) (la longitud del emulador de U en V) que solo depende de 
?7 y F y no de X, tal que para todo x, \Ku{x) — Kv{x) \ ^ c{U,V). Por lo 
que la constante c{U, V) sera relativamente menos significativa conforme la 
longitud de x sea mas grande. 

Una vez que encontramos el programa que obtiene x cuya longitud es 
minima (con respecto al resto de programas que obtienen x), entonces la 
longitud de esta descripcion es la denominada complejidad Kolmogorov. 

Definicion 2.1.1 Complejidad Kolmogorov 

Ku{x) := mm \p\ 

p tal que U(p)=x 

donde \p\ denota la longitud en bits dep y U{p) denota el resultado de ejecutar 
p en U. 

Para entenderlo mejor veamos dos ejemplos: 

azaLzazazazazazazazazELzazazazsLzazazazazELzazazazsLZELzazazazaLzaz 
Inkjdf glkf gvoijmnf gvil 

Como podemos ver la primera cadena es una sucesion de "az" que se puede 
describir en lenguaje natural (en castellano) como "az 30 veces", utilizando 
un total de 11 si'mbolos (contando espacios). Sin embargo, para la segunda 
cadena (aiin siendo una cadena bastante mas pequena que la primera) es 
bastante dificil encontrar alguna forma de describirla que utilice 11 simbolos 
o menos. Por lo que la segunda cadena es mas compleja de describir que la 
primera segun el lenguaje castellano. 

El problema principal de la complejidad Kolmogorov es que no es compu- 
table debido al problema de la parada (halting problem, o mas generalmen- 
te, el Entscheidungsproblem) . Imaginemos que tenemos un programa p que 
proporciona x cuya longitud es \p\ = n, lo que significa que n es una cota 
superior de la complejidad Kolmogorov de x, esto es n ^ K{x). Sin embargo, 
aun es posible que existieran programas que proporcionen la cadena de sali- 
da X utilizando una descripcion cuya longitud es menor any, sin embargo, 
tardasen un tiempo practicamentc infinito cn ejecutarse. Por este motivo, en 
la practica, esta complejidad es incomputable. 
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Existen variantes a la complejidad Kolmogorov que si son computables. 
Una de ellas es la denominada complejidad de Levin Kt. 

Definicion 2.1.2 Complejidad de Levin Kt 

Ktu{x) := mm {\p\ + log time{U,p,x)] 
p tal que U(p)^x 

donde \p\ denota la longitud en hits de p, U{p) denota el resultado de ejecutar 
p en U y time{U,p,x) denota el tiemp(^ que U tarda en ejecutar p para 
producir x. 

Una vez anadimos el tiempo que se tarda en obtener la cadena x, cual- 
quier programa que tarde un tiempo infinito (y) en ejecutarse sera mas com- 
plejo que cualquier otro programa conocido que consiga proporcionar x en 
un tiempo finito, ya que linvy^as log{y) = oo. 

Para mas informacion sobre la complejidad Kolmogorov vease |24) . 

2.1.5. Distribucion universal 

A partir de la complejidad Kolmogorov po demos definir la probabilidad 
universal para una maquina U del siguiente modo: 

Definicion 2.1.3 Distribucion universal Dada una maquina prefija- 
d^ U , la probabilidad universal de la cadena x se define como: 

Pu{x) := 2-^v{x) 

la cual da mayor probabilidad a los objetos cuya menor descripcion sea mas 
pequena y da menor probabilidad a los objetos cuya menor descripcion sea 
mas grande. Cuando U es universal (es decir, Turing-completa) , esta distri- 
bucion es similar (en funcion de una constante) a la distribucion universal 
para cualquier otra maquina universal distinta al poder emularse entre si. 

2.1.6. Algoritmos de Markov 

Un algoritmo de Markov es un sistema de reescritura de cadenas que 
utiliza reglas de tipo gramaticales para operar con cadenas de simbolos. Los 
algoritmos de Markov se lian demostrado que son Turing-completos, lo que 
significa que a partir de su simple notacion son adecuados como modelo 
general de computacion. 

^AquI el tiempo no se refiere a tiempo fisico sino a tiempo computacional, p. ej. pasos 
computacionales utilizados por la maquina U . Esto es importante, ya que la complejidad 
de un objeto no puede depender de la velocidad de la maquina en donde se ejecuta. 

*Para una definicion conveniente de la probabilidad universal, se requiere que U sea 
una maquina prefijada (vease p. ej. |24) para mas detalles). Notese tambien que incluso 
para maquinas prefijadas existen infinitas entradas para U que obtienen como salida x, 
por lo que Pu{x) es un estricto limite inferior de la probabilidad de que U obtenga x como 
salida (dada una entrada aleatoria). 
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Definicion 2.1.4 Algoritmo de Markov 

Un algoritmo de Markov es una tripleta (S,r,n) donde S es el alfabeto 
de la cadena de entrada, V es el alfabeto del algoritmo con E c r y 11 es una 
secuencia ordenada de reglas (o tambien llamadas producciones) de la forma 
LHS RHS (reglas normales) o LHS RHS (reglas terminantes) donde 
LHS y RHS representan palabras (posiblemente de longitud 0) en T* . 

El algoritmo procesa una cadena de entrada s 6 S* de la siguiente forma: 

1. Comprueba las reglas en orden descendente, comprobando si alguna 
subcadena de 's' (incluyendo la cadena vacia) concuerda con la parte 
izquierda (LHS) de las reglas. 

2. Si ninguna subcadena de 's ' concuerda con ninguna parte izquierda 
(LHS) de las reglas se termina el algoritmo. 

3. Si alguna parte izquierda (LHS) concuerda con una o mas subcadenas 
en 's ' reemplazar en esta iteracion del algoritmo la subcadena situada 
mas a la izquierda en 's' por la parte derecha de la regla (RHS). 

4. Si la regla usada era una regla terminante, se termina el algoritmo. 

5. Si no, volver al paso [i| 

Vamos a ver un ejemplo de un algoritmo de Markov que transforma un 
numero en binario en su correspondiente numero unario (utilizamos '|' para 
representar cada unidad), donde S = {1,0}, T = Su {|} y con las siguientes 
reglas 11: 

1. |0^0|| 

2. 1 ^ 0| 

3. 0^ 



Aliora veamos el resultado de ejecutar el anterior algoritmo de Markov 
utilizando '101' (5 en binario) como cadena de entrada. Para aclarar la eje- 
cucion del algoritmo subrayaremos la subcadena transformada e indicaremos 
la regla que se ha utilizado en cada paso. 



101 - 
OjOl - 
00||1 
00||0| 
00|0|| 

oooiii 
ooliiii 



►2 0|01 

n oo||i 

-^2 00||0| 
^1 00|0| 
^1 000| 
I ^3 00|| 



14 



2.2. Evaluacion de inteligencia biologica 



En esta seccion vemos dos de las disciplinas de la psicologia que buscan 
evaluar la inteligencia de las especies biologicas en general y de la especie 
humana en particular. 

2.2.1. Psicometria 

Desde hace mucho tiempo, los psicologos ban tratado de medir las capa- 
cidades y cualidades de los seres humanos para poder compararlas con las 
del resto de individuos de su misma especie. Uno de los motivos de querer 
medirlas, es que algunas personas claramente disponen de mayores capaci- 
dades y cualidades que otras, y el ser humano, en su afan de investigacion 
y comprension de la mente humana, pretende ser capaz de medirlas de una 
forma eficaz y objetiva. 

A partir de este afan de investigacion aparecio la psicometria ([8j). La 
psicometria es la disciplina que se encarga de la medicion en psicologia, y 
su finalidad es construir y utilizar adecuadamente los tests (o pruebas) y 
las escalas, de tal modo que se garantice su fiabilidad, validez y aplicacion 
adecuada para medir los diferentes aspectos psicologicos; como lo son: el 
conocimiento, las habilidades sociales, la personalidad, . . . 

La psicometria engloba la construccion de tests que scan validos y fia- 
blefjf] para medir los diferentes aspectos psicologicos de los seres humanos 
ofreciendo un valor tras la medicion. De entre los distintos tipos de aspec- 
tos, el primero que se trato de medir fue la inteligencia y, posteriormente, 
se construyeron nuevos tests para medir el resto de aspectos cognitivos y de 
personalidad de los seres humanos. 

Para realizar estos tests, se debe conocer (1) que se pretende medir y (2) 
las caracteristicas que mide cada test. Si se utilizase un test para medir la 
motivacion de una persona, entonces los resultados obtenidos no nos serviran 
para tomar ninguna decision sobre, por ejemplo, su personalidad, por lo que 
los resultados de cada test son relativos y unicamente validos al objeto de 
estudio. Ademas, no existe ningun metodo teorico para construiiios. Los tests 
se construyen por prueba y error, formandolos a partir de los ejercicios que 
han ofrecido los resultados esperados tras evaluar a distintos individuos. 

Estos tests se deberan ajustar al tipo de individuo que se pretenda evaluar 
dependiendo de sus caracteristicas personales (edad, cultura, . . . ), por lo 
que se precisa de un psicologo experto que disehe los tests (o que seleccione 
alguno previamente construido que se ajuste correctamente a los individuos) 
e interprete los resultados cada vez que se quiera realizar una nueva medicion. 

^Un test es 'valido' si mide el atributo que realmente pretendia medir, mientras que 
es 'fiable' si lo mide siempre de igual manera, obteniendo los mismos resultados para un 
sujeto en distintas evaluaciones de una misma prueba. 
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Uno de los puntos fuertes de estos tests psicometricos es que sus resulta- 
dos nos permiten hacer comparaciones de las capacidades de una persona con 
respecto a otra, o incluso nos permiten ver la evolucion de sus capacidades 
en diferentes momentos de su vida. 

Tambien existen algunos tipos de evaluaciones que pretenden medir la 
inteligencia general de los seres humanos, como por ejemplo "la prueba de 
inteligencia de Cattell", conocida como "Test de factor «g»" que busca me- 
dir la inteligencia concebida como una capacidad mental general, o "factor 
g", y mediante tareas no verbales, eliminar la influencia de habilidades ya 
cristalizadas como la fluidez verbal y otros aprendizajes adquiridos. 

Podemos ver una de las aplicaciones practicas de estos tests en las gran- 
des empresas. En los ultimos afios, se han utilizado para encontrar a los 
aspirantes que mejor se adecuan a sus puestos de trabajo vacantes. En este 
proceso se suelen realizar distintos tests a los aspirantes para tener un valor 
de sus capacidades y, a partir de sus resultados, poder decidir de una for- 
ma objetiva cual es el aspirante cuyos conocimientos, capacidades sociales, 
inteligencia, etc. se corresponden mejor a las necesidades de la empresa. 

2.2.2. Psicologia comparada 

Otra disciplina de la psicologia es la denominada 'Psicologia comparada' 
[28] (puede verse una version mas moderna en |29] ) . La psicologia comparada 
aborda el estudio del comport amiento animal, al igual que otras disciplinas, 
como la etologia, la psicologia animal, y recientemente la sociobiologia, todas 
originadas en la misma base teorica. El origen esta en la teoria de la evolucion 
de las especies de Darwin y Wallace [3]. 

La psicologia comparada, conocida tambien como psicologia animal, es 
una disciplina de la psicologia que pretende conocer la conducta animal y 
los mecanismos que la provocan mediante el estudio de diversas especies y 
comparando los comportamientos estudiados con los humanos. 

La psicologia comparada estudia especialmente la conducta de los simios 
por ser la especie mas cercana al hombre, ya que compartimos alrededor del 
95 % de los genes con los cliimpances y los bonobos, por lo cual estan consi- 
derados las especies mas proximas al ser humano. Pero tambien se estudia la 
conducta de otros animales, por ser mas faciles de criar, y que han aportado 
datos interesantes a los psicologos como, p. ej. los ratones de laboratorio. 

El tipo de investigacion de la psicologia comparada puede estudiar con- 
ductas condicionadas (como las experiencias de Pavlov), pero tambien se 
ocupa de la anatomia y las estructuras cerebrales. 

La psicologia comparada promueve el estudio experimental de la psico- 
logia del aprendizaje y condicionamiento animal y humano. Investigando los 
procesos basicos del aprendizaje y condicionamiento clasico y el instrumen- 
tal, incluyendo las relaciones de los procesos de aprendizaje, memoria, aten- 
cion, motivacion, cognicion, comparadas en organismos animales y humanos. 
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contemplando tambien las bases neurobiologicas. 

Existe un problema al tratar de realizar este tipo de tests en psicologia 
comparada. Este es un problema de comunicacion, ya que no es posible 
decirles verbalmente que es lo que se espera de ellos durante su evaluacion. 
Es por ello que se les suele ofrecer algun tipo de recompensa (como por 
ejemplo comida) cada vez que consigan resolver algun tipo de tarea y asi 
condicionarles para que realicen el test. 

2.3. Evaluacion de inteligencia de maquinas 

Debido a la aparicion de la inteligencia artificial, se ban propuesto varios 
tipos de evaluaciones para tratar de comprobar (en algunos casos) cuan in- 
teligentes son estas maquinas, y (en otros) si su inteligencia es comparable 
a la de los humanos. 

Veamos algunas de estas propuestas. 

2.3.1. Test de Turing 

Una de las primeras pruebas que se formularon fue propuesta por Alan M. 
Turing en 1950 en su 'juego de la imitacion' |38j (comunmente conocido como 
el 'test de Turing'). Turing cambio la pregunta natural de si una maquina 
piensa por si una maquina puede ser indistinguible de un sistema que piense. 
Para ello el juego supone 3 participantes: (1) un ser humano, (2) una maquina 
que debera hacerse pasar por humano y (3) un juez que debera averiguar 
cual de los dos anteriores es la maquina. Debido a que en este juego no se 
desea evaluar si una maquina es fisicamente parecida a un humano, sino si 
es mentalmente capaz de parecerse a un humano, el juego debe realizarse 
sin existir un contacto directo entre el juez y los otros dos participantes, de 
modo que no deba influir la apariencia fisica con las decisiones que tome el 
juez. 

El test propuesto por Turing ha creado mucha controversia en los ulti- 
mos alios [30j. Se ha llegado a varias conclusiones a partir de este test: (1) 
el test requiere de un juez (humano) para realizarse, por lo que no puede 
hacerse automaticamente, (2) el test no proporciona un valor medible de la 
inteligencia, simplemente se contesta si parece o no humano (no es gradual) 
y (3) realmente el test no evalua si la maquina es o no inteligente, sino que 
mide su 'humanidad'. 

Ya que este test no mide la inteligencia de las maquinas sino su huma- 
nidad, no resulta adecuado para este proposito. Sin embargo, se han creado 
muchas variantes del test, como el Total Turing Test (TTT) [9] o el Inver- 
ted Turing Test (ITT) |45| . Incluso un multimillonario (Loebner) ha creado 
un concurso con este test, dotando de una sustancial cantidad economica 
(100.000 $) para los creadores del programa que consiga engahar a varios de 
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sus jueces instruidos para descubrir al impostor. En la actualidad, todavia 
ningun programa ha conseguido obtener este premio. 



2.3.2. CAPTCHAs 



Una de las variantes al test de Turing mas conocida es el CAPTCHA 
(Completely Automated Public Turing test to Tell Computers and Humans 
Apart) |40| [T] . Basicamente, estos test son capaces de distinguir entre hu- 
manos y maquinas generando textos distorsionados. Estos textos resultan 
facilmente comprensibles por los humanos, mientras que, sin embargo, re- 
sultan ser extremadamente complejos de reconocer para las maquinas en el 



estado del arte actual. Podemos ver un ejemplo de estos tests en la Figura 2.2 



Type the characters you see in the picture below. 



abac 



Letters are not case-sensitive 



Figura 2.2: Texto distorsionado generado por un CAPTCHA 

Desde su aparicion en 2004, estos CAPTCHAs se han utilizado en for- 
mularios por internet con multiples finalidades: evitar que las maquinas sean 
capaces de descargar archivos de forma masiva, crear multiples cuentas de co- 
rreo, postear comentarios en foros, etc. Sin embargo, existen algunos progra- 
mas que se estan especializando en entender estos CAPTCHAs, por lo que, 
para seguir siendo utiles, deben actualizarlos continuamente haciendolos ca- 
da vez mas dificiles de resolver. Actualmente estos CAPTCHAs son capaces 
de distinguir entre humanos y maquinas, pero dentro de unos afios (debido 
a esta constante actualizacion) los problemas generados por los CAPTCHAs 
seran tan complejos que ni siquiera los humanos seran capaces de resolverlos, 
por lo que se deberan buscar nuevos metodos que nos permitan diferenciar 
mejor a los humanos de las maquinas a traves de internet. 

2.3.3. Machine Intelligence Quotient (MIQ) 

Hoy en dia, los aparatos electronicos resultan cada vez mas 'inteligentes'. 
Podemos ver lavadoras que intentan consumir el minimo posible de agua en 
funcion de la carga que tienen, neveras que conservan mejor los alimentos 
dependiendo del tipo de alimento que se encuentre en cada zona, etc. Estas 
son maquinas que tratan de realizar su cometido de una forma 'optima' e 



18 



'inteligente' y, tras su aparicion, L. A. Zadeh acuno el termino de 'Machine 
Intelligence Quotient' (MIQ) para comparar estas maquinas con capacida- 
des 'inteligentes' que comenzaron a aparecer a partir de 1990; las cuales 
manifestaban una capacidad 'impresionante' para razonar, tomar decisiones 
inteligentes y aprender de la experiencia (|47|). 

Sin embargo, este termino realmente fue sugerido por Zadeh para referirse 
a estas maquinas cada vez mas 'inteligentes'. En realidad, su objetivo real era 
dar a conocer los avances y posibilidades de la logica difusa para controlar 
estos aparatos. 

Aunque este termino parece corresponderse con un tipo de cociente de 
inteligencia en las maquinas, en realidad no se aplica a ningun tipo de eva- 
luacion ni posee ningun concepto matematico que lo defina. Solo existe como 
un concepto intuitivo de las capacidades de las maquinas actuales en com- 
paracion con las de epocas anteriores. 

No obstante, podemos ver algunos intentos para definir formalmente este 
MIQ. Por ejemplo, en uno de estos intentos se mide la inteligencia de las 
maquinas a traves de 3 perspectivas distintas: tecnica, organizacional y per- 
sonal, para posteriormente calcular el MIQ (para mas detalles vease |39|). En 
otros proponen estimar el MIQ a traves de un metodo mas orientado a partir 
de los humanos. En [31] se sugiere que, como algunas maquinas de control 
no pueden realizar todo el trabajo por ellas mismas, sino que requieren de 
alguna intervencion humana, la MIQ deberia representar la inteligencia de 
las maquinas desde el punto de vista de los humanos. Como se puede ver, 
ni siquiera entre estos intentos parece que se pueda obtener una estimacion 
clara y consensuada de este termino. 

2.3.4. Test de compresion 

David L. Dowe propuso en 1997 ahadir un nuevo requisito computacional 
que consideraba necesario para la definicion de inteligencia |3]. Este nuevo 
requisito (que habria que ahadir al Test de Turing) no estaba directamente 
relacionado sobre el comportamiento de las maquinas, sino mas bien en su 
capacidad inductiva de aprendizaje. Basicamente Dowe sugirio que para que 
una maquina fuera inteligente tambien debia ser capaz de aprender de forma 
inductiva la representacion del dominio del test en el que se le esta evaluando. 
De este modo, si dos programas ofrecen los mismos resultados, entonces el 
programa mas comprimido seria el mas inteligente. 

Posteriormente Matthew V. Mahoney propuso un idea similar en 1999 
|26) . En este articulo se ofrecia tambien una solucion a un problema del 
test de Turing, el cual consistia en que unicamente era capaz de obtener 
un valor binario de si la maquina parece o no una persona y no un valor 
numerico que nos indique cuan humanas parecen. Estos test se basan en 
las distintas capacidades de compresion de textos que poseen las maquinas 
y los humanos. Los humanos son capaces de comprimir mejor debido a su 
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mayor conocimiento general y estructura logica del lenguaje, por lo que (en 
estos test) la maquina cuya capacidad de compresion se acerque mas a la 
capacidad de compresion humana, sera la que mas humana parezca. 

Este tipo de compresion ha sido anadido como un reto en el "Hutter 
Prize'l^ Este reto consiste en comprimir 100 MBytes de informacion de la 
Wikipedia, de modo que la compresion que mejore la mejor marca obtendra 
el premio. 



2.3.5. C-test 

Jose Hernandez Orallo propuso en 1998 el C-test (|16)|llj|17)). el cual 
trata de evaluar la inteligencia universal basandose en nociones computacio- 
nales bien conocidas, como lo son: la teoria de la induccion de Solomonoff 



para predecir el siguiente caracter y la complejidad Kolmogorov (vease 2.1.4) 
para concluir la dificultad de cada ejercicio. Por tanto, los C-tests miden la 
capacidad de inferencia inductiva de los sujetos. 

En esta aproximacion, los ejercicios que se proponen en los tests estan for- 
mados por una secuencia de caracteres, y el objetivo es averiguar el siguiente 
caracter que mejor sigue la secuencia. 



En la Figura 2.3 vemos un ejemplo de estos tests. 



k = 9 : a,d,g, j,... Respuesta: m 

k = 12 : a, a, z, c, y, e, x, ... Respuesta: g 

fc = 14 : c, a, b, d, b, c, c, e, c, d, . . . Respuesta: d 



Figura 2.3: Ejercicios de secuencia de caracteres con distintas dificultades 
{k) en el C-test. 

Posteriormente se propuso una factorizacion para medir otras caracteris- 
ticas (capacidades deductivas, analogicas, . . . ) [TT] . 

2.3.6. Juegos competitivos 

En 2002, H. Masum et al. propusieron en |27| el metodo 'Turing Ratio' 
que hace mas enfasis en tareas y juegos en lugar de en tests cognitivos. 
Parten como premisa que "... hacerlo bien en un amplio rango de tareas es 
una definicion empirica de 'inteligencia'". Para ello, llegan a la conclusion 
de que es necesario encontrar un conjunto de tareas que sean capaces de 
medir habilidades importantes, que admitan distintas estrategias para poder 
resolverlas (siendo algunas estrategias cualitativamente mejores que otras) 
y que sean reproducibles y relevantes con el paso del tiempo. Sugieren un 
sistema de medida del rendimiento a traves de comparaciones por parejas 

^http:/ /prize. hutterl.net/ 
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entre sistemas de lA, de una forma similar al utilizado para clasificar a los 
jugadores en el sistema de clasificacion internacional de ajedrez. 

Con este planteamiento se liace evidente el hecho de que encontrar estas 
tareas no resulta facil, ya que no solo es necesario obtener un conjunto signi- 
ficativo de tareas, sino que tambien es necesario poder medir su relevancia, 
su importancia y cuan amplia es cada tarea con respecto a la liabilidad que 
se est a evaluando. 

2.3.7. Los test de IQ clasicos no sirven para evaluar la lA 

En 2003, Sanglii y Dowe se propusieron comprobar si los tests de IQ 
clasicos eran o no apropiados para medir la inteligencia de algoritmos de lA 
|33) . Para ello, implementaron algunos algoritmos simples con la finalidad de 
que hicieran estos test de IQ. 

Estos algoritmos obtuvieron unos resultados parecidos a los que obtendria 
un ser humano. Por lo que se demostro algo que ya se sospecliaba, que los 
tests de IQ clasicos no sirven para medir la inteligencia de cualquier sistema 
inteligente a parte del ser humano. Esta fue la primera demostracion empirica 
de que los tests psicometricos no son validos para evaluar maquinas. 

2.3.8. Inteligencia universal 

Algunos trabajos de Legg y Hutter (p. ej. |22||23)) han dado una nueva 
definicion de la inteligencia de las maquinas, denominada "Inteligencia Uni- 
versal", la cual esta basada, al igual que algunas propuestas anteriores, en la 
complejidad Kolmogorov y la teoria de prediccion (o "inferencia inductiva") 
de Solomonoff. La idea principal es que la inteligencia de un agente se evalua 
como algun tipo de suma (o promedio ponderado) de rendimientos en todos 
los posibles entornos. 

Una de las contribuciones mas relevantes de j23j es que su definicion de 
inteligencia universal permite evaluar formalmente el rendimiento teorico 
de algunos agentes: un agente aleatorio, un agente especializado, . . . , hasta 
incluso un agente super inteligente. 

Su definicion se basa en la idea de que la inteligencia se puede ver como el 
rendimiento en una variedad de entornos, y sugieren que para esta variedad 
de entornos se utilicen todos los entornos posibles. Despues, dado un agente 
TT, su inteligencia universal T puede obtenerse con la siguiente definicion: 

Definicion 2.3.1 Inteligencia Universal [23j 



donde fi es cualquier entorno codificado en una mdquina universal U , con vr 
como el agente a evaluarse. Con puifJ-), asignamos la probabilidad de cada 
entorno, a pesar de que estas probabilidades no sumardn 1. 
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Al tener un numero infinite de entornos, no se puede asignar una dis- 
tribucion uniforme a los entornos. La solucion es utifizar una distribucion 



universal en una maquina dada U, como puede verse en la Seccion 2.1.5 



adaptando apropiadamente la codificacion de los entornos como cadenas en 
U, y asumiendo que la clase de entornos es recursivamente enumerable (vease 
pagina 63 de [21] para mas detalles). 

Y, finalmente, ya que tenemos una suma de un numero infinito de entor- 
nos, para evitar que las recompensas acumuladas sean infinitas se impone 
una restriccion a todos los entornos: 



Definicion 2.3.2 Entornos con recompensas limitadas Un entorno 
H es limitado por las recompensas si y solo si para todo it: 

El valor numerico dado para cada recompensa se utiliza para computar 
la recompensa esperada global VT. 
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Capitulo 3 



Marco general del sistema de 
evaluacion 

En este capitulo vemos el marco general/ conceptual en el que se basa el 
proyecto ANYNT y el diseno sugerido para construir un sistema de evalua- 
cion a partir de este marco 

La evaluacion y medicion de la inteligencia estan estrechamente relacio- 
nadas con la nocion de test, lo que, como hemos visto, es el dia a dia de 
la psicometria. En el capitulo anterior hemos visto multitud de sistemas de 
evaluacion que pretenden medir la inteligencia. Mientras algunos de estos 
tests intentan medir ciertas capacidades cognitivas concretas, otros han in- 
tentado realizar una evaluacion mas general de estas capacidades (podemos 
ver, por ejemplo, los tests de factor «g» en psicometria como un intento de 
evaluar estas capacidades generales). Sin embargo, varios de estos sistemas 
de evaluacion resultan incompletos para evaluar la inteligencia general, como 
por ejemplo: la falta de un resultado gradual (test de Turing), la interpreta- 
cion solo empirica de los resultados obtenidos (psicometria o workshops on 
Performance Metrics), etc. 

Desde un punto de vista cientifico, se puede pensar sobre cual es la de- 
siderata que se espera de un procedimiento de medicion de inteligencia, y, 
a partir de ahi, ver si esta desiderata es fisicamente alcanzable. Una vision 
cientifica ambiciosa de las propiedades que deberia tener una medicion de la 
inteligencia seria: 

■ Debe ser "universal" en el sentido de que no deberia ser disehada solo 
para medir a un tipo particular de sistema inteligente. Debe permi- 
tirnos medir cualquier tipo de sistema inteligente (biologico o compu- 
tacional). 

■ En lugar de utilizar metodos empiricos para realizar las evaluaciones, 
debe derivarse de nociones computacionales bien fundadas con forma- 

^ Parte del material de este capitulo ha sido extrafdo a partir del artfculo |14] . 
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lizaciones precisas de los conceptos involucrados en la medicion, tales 
como: entorno, accion, objetivo, puntuacion, tiempo, etc. 



■ Uno de los problemas de muchos tests actuales es que solo miden al- 
gunas habilidades concretas de la inteligencia, como el razonamiento o 
la memoria. El test debe ser significativo en el sentido de que lo que se 
este midiendo represente la nocion mas general de inteligencia. 

■ Debe ser capaz de evaluar y puntuar cualquier sistema inteligente exis- 
tente o cualquier sistema que pueda ser construido en el futuro, per- 
mitiendo asi la comparacion entre distintas generaciones de sistemas 
inteligentes incluso por encima de la inteligencia humana. 

■ La medicion deberia servir para medir cualquier nivel de inteligencia y 
cualquier escala de tiempo del sistema. Debe ser capaz de evaluar siste- 
mas tanto brillantes como ineptos (cualquier nivel de inteligencia) asi 
como sistemas muy lentos o muy rapidos (cualquier escala de tiempo). 

■ La calidad (precision) de la evaluacion deberia ser ajustable y deberia 
depender sobretodo del tiempo que se le proporcione a la evaluacion. La 
evaluacion puede ser interrumpida en cualquier momento, produciendo 
una aproximacion a la puntuacion de la inteligencia. De este modo 
cuanto mas tiempo se deje para la evaluacion, mas aproximado sera el 
resultado que se obtenga (test anytime). 

El sistema de evaluacion propuesto en el proyecto ANYNT para evaluar 
la inteligencia general, proporciona un test que pretende reunir todas las 
propiedades anteriormente descritas: puede ser valido tanto para sistemas 
artificiales como biologicos, de cualquier grado de inteligencia y cualquier 
velocidad, no es antropomorfico (no es exclusivo para humanos), es gradual 
(proporciona un valor estimado de la inteligencia del sujeto), es anytime, 
esta basado exclusivamente en nociones computacionales (como la comple- 



jidad Kolmogorov, vease la Seccion 2.1 A) y tambien es significativo, ya que 



promedia la capacidad de obtener buenos resultados en distintos tipos de 
entornos. 

Para conseguir esto, el proyecto ANYNT se ha basado en algunos de los 
trabajos presentados en el capitulo anterior (e.g., tests de compresion, c-tests 
e inteligencia universal), ademas de otros trabajos previos en la medicion o 
definicion de la inteligencia [1] [5] [6] flG] |10j |22) |23| . Estos trabajos se basan en 
las nociones de inferencia inductiva, prediccion, compresion y aleatoriedad 
y estan todos propiamente formalizados y comprendidos en el contexto de 
la Teoria Algoritmica de la Informacion (AIT), complejidad Kolmogorov, la 
navaja de Occam o el principio de la Longitud Minima del Mensaje (MML) 
[2l]|l2][l3]|3I]. 
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El punto de partida es el mismo que en |23| : se establece un marco de 
trabajo en donde un agente interactua con un conjunto de entornos gene- 
rados a partir de una distribucion, siendo estos entornos los ejercicios que 
se realizaran durante el test. Esta es una idea bastante simple y natural, 
ya que la inteligencia se puede ver como el rendimiento en una variedad de 
entornos. Tambien parece atractivo si no nos preocupamos sobre el nume- 
ro de entornos ni sobre la cantidad de tiempo que se requiere en cada uno 
de ellos. Sin embargo, si se quiere que la evaluacion sea liable con una pe- 
quefia muestra de entornos y un pequefio numero de interacciones en cada 
uno de ellos, entonces se deben controlar algunos problemas, por lo que es 
necesario establecer algunas condiciones sobre los entornos: (1) se necesita 
definir una medida de complejidad para entornos apropiada y computable; 
la complejidad del entorno permitira distinguir su dificultad y situar co- 
rrectamente los resultados, (2) deben ser discriminativos; distintos tipos de 
sistemas inteligentes deberan obtener distintos resultados en concordancia 
con su inteligencia real, (3) deben reaccionar inmediatamente y deben estar 
balanceados (en terminos de la puntuacion esperada) para poder asegurar 
que sus resultados son apropiados; es necesario disponer de un valor de re- 
ferenda en todos los entornos con el que poder comparar los resultados de 
los agentes y (4) se necesita disenar una manera de derivar una muestra de 
estos entornos que se ajuste al nivel de inteligencia del sujeto; es necesario 
disefiar un mecanismo que nos permita alcanzar inequivocamente el nivel de 
inteligencia apropiado para cada sujeto y, por lo tanto, obtenga resultados 
mas estables conforme mas nos ajustemos a su nivel de inteligencia. 



3.1. Dificultad de los entornos 

Una importante cuestion es como elegir los entornos en donde se evalua- 
ra a los agentes. Una primera aproximacion seria utilizar una distribucion 
uniforme para obtener un entorno de entre todos los posibles entornos exis- 
tentes. Sin embargo, al existir infinitos entornos en donde poder evaluar a 
los agentes, la probabilidad de obtener uno de todos estos entornos seria 
l/oo = 0. 

Otra aproximacion para elegir los entornos seria utilizar una distribucion 
universal (vease la Seccion 2.1.5[ |p evitandose asi cualquier sesgo particular 



hacia un individuo especifico, especie o cultura, haciendo el test universal 
para cualquier posible tipo de sujeto. Con esta distribucion, los entornos 
mas simples se obtendrian con mayor probabilidad, mientras que los entor- 
nos mas complejos tendrian menor probabilidad. Sin embargo, simplemente 
utilizando esta distribucion se obtendrian una y otra vez los entornos simples 



Para el calculo de la complejidad puede utilizarse una variante computable de la 



complejidad Kolmogorov como, por ejemplo, el Kt de Levin (vease la Seccion 
mas detalles). 



2.1.4 



para 
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(notese que un entorno /i con = 1 apareceria la mitad de las veces, ya 

que 2^^ = 0,5), esta forma de obtener los entornos aun limitaria o proporcio- 
naria bajas probabilidades a entornos muy complejos. Desde luego, deberan 
descartarse los entornos repetidos para no volver a ser tenidos en cuenta 
durante la evaluacion. 

Antes de seguir, hay que clarificar las nociones de simple/facil y comple- 
jo/diflcil que vamos a utilizar. Por ejemplo, solo eligiendo un entorno con un 
K alto no nos asegura que el entorno sea en realidad complejo. 

Ejemplo 3.1.1 

Considerese, por ejemplo, que un entorno relativamente simple /xi con un 
K alto, tiene un comportamiento sin ningun patron hasta el ciclo i = 1.000 
y entonces se repite este comportamiento indefinidamente. K sera alto, ya 
que se deben codificar 1.000 ciclos, pero el patron es relativamente simple 
(una repeticion) si el agente tiene una gran memoria e interactua durante 
miles de ciclos. 

Ahora considerese un segundo entorno fi2 con un K alto que funciona 
como sigue: para cualquier accion, proporcionar la misma observacion o y 
recompensa r, excepto cuando la inter accion i es potencia de 2. En este 
caso (y solo en este caso) , la observacion y la recompensa dependeran de una 
formula compleja en funcion de las anteriores acciones. Es facil ver que en un 
amplio numero de ciclos el comportamiento del entorno es simple, mientras 
que solo en unos pocos ciclos el entorno requerira de un comportamiento 
complejo. 

Finabnente considerese, p. ej. un entorno fj,^ con solo dos posibles accio- 
nes tal que toda secuencia de acciones Ueva a "subentornos" muy simples, 
excepto una secuencia especifica de acciones aia2- ■ - dn que conduce a un 
subentorno complejo. Logicamente, la complejidad de este entorno es alto, 
pero solo 1 accion de 2" combinaciones hara accesible y visible para el agente 
el subentorno complejo. Por lo tanto, con una probabilidad de (2" — l)/2", 
el agente vera este entorno ^3 como muy simple. 



Las cuestiones aparecidas con los dos primeros entornos fii y ^2 tam- 
bien pueden aparecer con cadenas, pero el tercer entorno /X3 nos muestra 
que la nocion de facil o dificil no es la misma para cadenas que para entor- 
nos. En el caso de un entorno, un agente solo llegara a explorar una parte 
(generalmente) pequefia. 

Entorno con K alto Entorno intuitivamente complejo (dificil) 
Entorno con K bajo =^ Entorno intuitivamente sencillo (facil) 

Figura 3.1: Relacion entre K y \a complejidad intuitiva. 



Como muestra la Figura 3.1 la relacion es unidireccional: dada una K 
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baja, podemos afirmar que el entorno parecera simple. No obstante, dado un 
entorno intuitivamente complejo, la K debera ser necesariamente alta. 

Dada la relacion vista en la Figura 3.1, solo a traves de un K alto en- 
contraremos entornos complejos, pero no todos ellos seran dificiles. Desde la 
perspectiva del agente, sin embargo, esta situacion se hara mas acusada, ya 
que muchos entornos con una K alta contendran patrones dificiles a los que 
sera dificil que el agente pueda acceder a traves de sus inter acciones. Como 
resultado, los entornos seran probabilisticamente simples. Esto significa que 
los entornos normalmente son vistos mas simples de lo que realmente son, ya 
que muchos de los patrones que incluyen pueden ser (probabilisticamente) 
inaccesibles. Por lo tanto, solo se mostraran patrones muy simples y, a partir 
de ahi, la mayor parte de la inteligencia medida vendra a partir de entornos 
con un K bajo. 



3.2. Seleccion de entornos 

Muchos entornos (tanto simples como complejos) seran completamente 
inutiles para evaluar la inteligencia, e.g., entornos que paran de interactuar, 
entornos con recompensas constantes o entornos que son muy similares a 
otros entornos previamente utilizados. Incluir estos entornos en la muestra 
de entornos resulta un gasto de recursos, ya que deberan ser siempre descar- 
tados: habra que obtener una muestra mas correcta para un proceso de test 
mas eficiente. La cuestion es determinar un criterio no arbitrario para excluir 
algunos entornos. Por ejemplo, la definicion de la inteligencia universal pro- 



puesta por Legg y Hutter (vease la Definicion 2.3.1 de la Pagina 21 ) fuerza a 
que los entornos interactuen infinitamente, y ya que la descripcion debe ser 
finita, debe existir un patron. Este patron puede ser (o no) aprendido por 
el examinado. Sin embargo, esto obviamente incluye entornos de modo que 
"siempre proporcionen la misma observacion y recompensa" y tambien los 
entornos que "proporcionan observaciones y recompensas aleatoriament^', 
los cuales suponen un problema. No obstante, estos ultimos tienen una gran 
complejidad si asumimos entornos deterministas. En ambos casos, el com- 
portamiento para cualquier agente en estos entornos seria practicamente el 
mismo, por lo que, no poseeran ninguna capacidad discriminativa y, por lo 
tanto, seran inutiles para discriminar entre agentes. 

En un entorno inter activo, un requisito obvio para que un entorno sea 
discriminativo es que lo que haga el agente debe tener consecuencias en 
sus recompensas. En |21) se ha desarrollado una taxonomia de entornos, y se 
presenta el concepto de entornos MDP (Markov Decision Process) ergodicos. 
Los entornos MDP ergodicos se caracterizan por hacer que cualquier posible 
observacion sea alcanzable (en uno o mas ciclos) a partir de cualquier esta- 



^En la practica, esto deberia ser pseudo-aleatorio, lo cual implica que en realidad existe 
un patron. 
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do. Esto significa que en cualquier estado las acciones de los agentes pueden 
recuperarle de una mala decision. Estos entornos MDP ergodicos son una 
gran restriccion, ya que muchos entornos reales no proporcionan "segundas 
oportunidades". Si siempre fueran posibles las "segundas oportunidades", el 
comport amiento de los agentes tenderia a ser mas precipitado y menos re- 
flexivo. Ademas, parece mas facil aprender y tener exito en esta clase de 
entornos que en una clase mas general. 

En su lugar, se restringe que los entornos sean sensibles a las acciones 
de los agentes. Esto significa que una mala accion pueda liacer que el agente 
acabe en una parte del entorno de donde nunca pueda volver (no ergodico), 
pero que al menos las acciones que haga el agente puedan modificar las 
recompensas que obtenga en este subentorno. Mas concretamente, se quiere 
que los agentes sean capaces de influenciar en sus recompensas en cualquier 
punto de cualquier subentorno. Esto significa que no se puede alcanzar un 
punto a partir del cual las recompensas se proporcionen independientemente 
de lo que haga el agente. Esto puede formalizarse del siguiente modo: 

Definicion 3.2.1 Sensible a las recompensas 

Dado un entorno determinist^ fi, decimos que es n-acciones sensible a 
las recompensas si, para toda secuencia de acciones 0102 ■ ■ - at de longitud 
k, existe un entero positivo m ^ n de modo que existan dos secuencias de 
acciones 6162 . . .hm y C\C2 ■ ■ - Cm cuya suma de las recompensas que se ohtiene 
por la secuencia de acciones 0102 • • • akbib2 ■ ■ - bm es c?isimi(j^ a la suma de 
las recompensas de la secuencia 0102 . . . oa:CiC2 . . . Cm- 

Notese que la Definicion |3.2.1| no significa que cualquier accion tenga un 
impacto en las recompensas (directa o indirectamente), sino que en cualquier 
punto/instante siempre existen como minimo dos secuencias de acciones dis- 
tintas (en n inter acciones) que el agente puede elegir para obtener recompen- 
sas distintas. Esto significa que el agente puede estar atascado (obteniendo 
malas recompensas) en un entorno durante algun tiempo si no realiza las 
acciones correctas, pero al menos siempre puede elegir obtener mejores re- 
compensas en estas situaciones. En otras palabras, en cualquier momento 
el agente puede luchar para incrementar las recompensas que obtenga (o al 
menos evitar que decrezcan). 

3.3. Recompensas 

Cuando hay que evaluar a un agente, es necesario determinar si se nece- 
sita alguna restriccion en la distribucion de las recompensas y, mas especial- 

*La restriccion de entornos deterministas es porque, de lo contrario, la definicion deberia 
definirse en terminos de la suma de las recompensas esperadas. Esto es perfectamente 
posible, pero por motivos de simplicidad se asumen entornos deterministas. 

^Se pueden establecer varios niveles de sensibilidad mediante el establecimiento de un 
umbral minimo en esta diferencia. 
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mente, como se agregan las recompensas. La forma mas comun de evaluar el 
rendimiento de un agente vr en un entorno /i es calcular el valor esperado de 
la suma de todas las recompensas, p. ej.: 

Definicion 3.3.1 Recompensa acumulada esperada 

Esta no es la unica opcion, ya que tambien se podria determinar si se le 
da mas relevancia a las recompensas inmediatas o mas a largo plazo. 

Existe una relacion interesante entre la sensibilidad de las recompensas y 
el tipo de recompensas permitidas en los entornos. En |23], se discute sobre 
como distribuir las recompensas a traves del entorno, y se Uega a una sola 
restriccion: la recompensa total debe ser menor o igual que 1. Principalmente 
la razon es que, de lo contrario, todos los agentes podrian acumular en el 
limite un valor infinito, y todos los agentes podrian obtener la misma pun- 
tuacion. Notese que con esta definicion original, un entorno que proporcione 
una recompensa de 1 tras la primera accion y que, a partir de entonces, siem- 
pre proporcionase cumpliria con esta restriccion, pero resultaria un entorno 
inutil. La condicion de ser sensible a las recompensas liace que esto no sea 
posible ya que, en cualquier momento, parte del total de la recompensa debe 
surgir a partir de cualquier subentorno. Esto no excluye, en principio, un en- 
torno que proporciona recompensas de durante miles de acciones iniciales 
y a partir de ese momento comience a proporcionar recompensas. Esta es la 
razon por la cual tipicamente se especifica un numero bajo de n en la defi- 
nicion de entorno con n- acciones sensible a las recompensas, la cual implica 
que debe poderse 'consumir' alguna recompensa tras cada n o menos accio- 
nes. Un caso extremo es cuando n = 1, donde se debe proporcionar alguna 
cantidad de estas recompensas para cualquier posible accion en cualquier 
momento. 

Obviamente, en la practica un agente no puede interactuar infinitamente 
en los entornos. Limitar el numero de interacciones es facil de liacer. Simple- 
mente es necesario establecer un limite de interacciones rij para cada entorno 
para la obtencion de las recompensa^ 

Definicion 3.3.2 Recompensas acumulativas con un numero fini- 
to de interacciones 

donde vr es el agente que interactua en el entorno fi obteniendo en la inter- 
accion k una recompensa de r'^'^ , durante rii interacciones. 

^Aparte de tener un numero finite de interacciones, tambien se asume que el entorno 
sea determinista, por lo que esta definicion puede ser calculada. 
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Seria recomendable hacer que el entorno fuera rir-acciones sensible a las 
recompensas, con rir ^ rii de modo que sus acciones tengan un efecto en las 
recompensas en el periodo delimitado de inter acciones. 

Con el objetivo de garantizar una serie de propiedades de convergencia y 
de balance frente a agentes aleatorios, se imponen una serie de restricciones 
sobre las recompensas y los entornos. 

La primer a idea es utilizar recompensas simetricas, las cuales pueden 
estar en un rango entre -1 y 1, p. ej.: 

Definicion 3.3.3 Recompensas simetricas 

Vz : -1 ^ rj ^ 1 

Notese que esto no impide que la recompensa acumulada en un cierto 
punto sea mayor que 1 o menor que -1. Por lo que, si hacemos muchas ac- 
ciones, podemos tener una recompensa acumulada mayor que 1. Observando 
implement aciones flsicas, las recompensas negativas no tienen por que estar 
asociadas con castigos, lo cual se consider a poco etico para individuos bio- 
logicos. Por ejemplo, si estamos evaluando un simio, las recompensas desde 
-1 a -1/3 podrian implicar no dar nada, desde -1/3 a 1/3 dar una pieza de 
fruta, y desde 1/3 a 1 dos piezas. O una recompensa negativa puede implicar 
eliminar una fruta adjudicada previamente. 

Si nos fijamos en las recompensas simetricas, tambien es de esperar que 
los entornos sean simetricos, o mas precisamente, que sean balanceados en 
como proporcionan las recompensas. Esto puede verse del siguiente modo: en 
un test liable, queremos que muchos (si no todos) los entornos ofrezcan una 
recompensa de para agentes aleatorios. La siguiente definicion lo formaliza. 

Definicion 3.3.4 Entorno balanceado 

Un entorno // estd balanceado si y solo si: 

■ Sus recompensas son: Vi : — 1 ^ ^ 1. 

■ Dado un agente aleatorio tTj., se mantiene la siguiente igualda(^ 

Donde r^''^'' se refiere a la recompensa en la interaccidn i que ha obtenido 
TTr en el entorno ^, E es el valor esperado y V^^ se refiere a la media de 
recompensas obtenida por tt^- 

'^Notese que el valor esperado debe ser en el limite 0. Incluso para en- 
tornos deterministas, la serie de recompensas acumuladas podria ser divergente, 
p. ej., el valor lfm„.^oo y^'"(ni) podria no existir y se asume un limite Cesaro 
(lfm„,^„;i-2;iiV;-(nO). 
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Esto cxcluyc tanto a cntornos hostiles como a entornos benevolos, p. ej. 
entornos dondc rcalizando accioncs alcatorias sc conseguiria mas rccompcn- 
sas negativas (respectivamente positivas) que positivas (respectivamente ne- 
gativas) . En muchos casos no es dificil probar que un entorno particular esta 
balanceado. Para entornos complejos, la restriccion previa se puede compro- 
bar experimentalmente. Otra aproximacion es proporcionar una maquina de 
referenda que unicamente genere entornos balanceados. 

Notese que las modificaciones previas en las recompensas ahora nos per- 
miten usar una media en lugar de una recompensa acumulada para calcular 
el result ado de los entornos, es decir: 

Definicion 3.3.5 Recompensa media 

Dado un entorno fx, con Ui como el numero de interacciones completadas, 
entonces la recompensa media para el agente it se define como: 

• H 

3.4. Interacciones practicas 

Si queremos asegurar que las interacciones terminen en un tiempo corto, 
es necesario limitar un tiempo maximo para cada salida. Para ello sc propone 
una aproximacion a la Kt de Levin. Primero definimos Actime{U,p, ai:i) 
como el tiempo necesario para imprimir el par {ri+i,Oi+i} tras la secuencia 
de accioncs ai-i, es decir el tiempo de ciclo dc respuesta. A partir de aqui se 
establece el Ifmite superior para el tiempo de computo maximo que el entorno 
puede consumir para generar la recompensa y la observacion despues de la 
accion del agente. 

Definicion 3.4.1 Complejidad Kt ponderando los pasos de la in- 
teraccion 

Ktij"'''{li,n) := mm + log ( max (Actzme(L/",i?,ai:i)) 

p tal que U(p)^fi (. \oi:i,i^n 

lo que significa la suma de la longitud del entorno mas el logaritmo del ma- 
ximo tiempo de respuesta de este entorno con la maquina U. Notese que este 
Hmite superior puede usarse en la implement acion de entornos, especialmente 
para hacer su generacion computable. Para hacer esto definimos su comple- 
jidad para un numero Ifmite de ciclos n, hacicndo su definicion computable. 
Este Ifmite n no es solo necesario para la computacion, tambien es practico 
en algunos otros casos donde la computabilidad no es un problema pero no 
existe un maximo. Por ejemplo, considerese un entorno cuya salida z-esima 
dependa del calculo de si el numero i es primo o no. En este caso, el maximo 
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Actime no esta delimitado y, por tanto el Kf^"-^ de esta secuencia seria in- 
finito. Por lo tanto, el entorno seria descart;ado si no establecemos un Hmite 
de n. 

La funcion de complejidad previa asegura que el tiempo de respuesta en 
cualquier interaccion con un entorno esta delimitado. 

Ahora vamos a dar a una definicion mas refinada de la Inteligencia Uni- 
versal: 

Definicion 3.4.2 Inteligencia Universal (conjunto finito de entor- 
nos balanceados y sensibles a las recompensas, numero finito de 
interacciones, complejidad Kt"^"-^) con puntuacion ajustada 

T{Tr, U,m,ni) := V 

m ■ rii -M, ^ 

donde S es un subconjunto finito de m entornos balanceados siendo ni- 
acciones sensible a las recompensas extraido con pjj{fi) := 2^^*j/"'^ 

3.5. Tests adaptativos 

Obviamente si queremos evaluar de una forma practica la inteligencia de 
un agente, necesitamos que el test se haga en un periodo finito de tiempo y, 
por lo tanto, de entornos. 

Aparentemente existen muchas opciones para incorporar el tiempo. Una 
aproximacion podria ser, por ejemplo, utilizar un tiempo global r para los 
entornos. Esta claro que conforme mas tiempo fisico se deje, generalmente, 
un agente puede obtencr mas obscrvaciones (muy rapidamente, p. ej. movien- 
dose aleatoriamente al principio) y despues tratar de usar su conocimiento 
durante el resto del test. Por lo tanto, los resultados esperados mejoraran 
conforme crezca r, mientras que se espera que empeoren conforme crezca la 
complejidad de los entornos (mientras r se mantiene constante). 

Utilizar dos parametros distintos para el numero de entornos (m) y el 
tiempo global de cada entorno (r) para cada entorno es un sesgo importan- 
te (aparte del efecto que tienen en la medida). Si se deja muchos entornos 
con un pequeiio numero de interacciones en cada uno, muchos agentes seran 
incapaces de encontrar el patron y tomar ventaja de ello. Si se deja muchas 
interacciones para que los agentes encuentren el patron solo se explorarian 
unos pocos entornos durante la evaluacion. Por lo que existen tambien ra- 
zones practices para encontrar una compensacion entre los parametros m 
y T. Si se quiere evaluar un sistema con una alta inteligencia, estos valores 
deberian elegirse en concordancia: aparentemente deberian utilizarse pocos 
entornos pero mas complejos y con mas tiempo para interactuar cn cllos. 
Por el contrario, si se quiere evaluar un sistema menos competente, debe- 
rian utilizarse muchos entornos simples con posiblemente menos tiempo de 
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interaccion. Por lo que esto sugiere ajustar los parametros en funcion de las 
expectativas puestas en el sujeto que se quiera evaluar. La cuestion es que 
los tests no se deberian poder configurar independientemente antes de pro- 
porcionarlos, ya que la complejidad y el tiempo de los ejercicios deberian 
ser establecidos de antemano dependiendo del sujeto, y, por lo tanto, los re- 
sultados no serian comparables. En su lugar, es necesario que los tests sean 
adaptativos al nivel de inteligencia del examinado, y esta adaptacion debe 
realizarse automaticamente y de igual modo para todos. 

No solo se quiere que el test sea adaptativo, tambien que, dada una pe- 
quena cantidad de tiempo poder aproximar la inteligencia del agente. Por 
otro lado, si se le diese mas tiempo a la evaluacion, se tendria una mejor apro- 
ximacion, y tambien seria interesante poder parar la evaluacion en cualquier 
momento y obtener la aproximacion. En otras palabras, es preferible que el 
test sea anytime (un algoritmo anytime es un algoritmo que puede pararse en 
cualquier momento, dando una recompensa razonable para el tiempo dado). 

Una posibilidad es definir dos contadores: uno para la complejidad del 
entorno y otro para el tiempo fisico que se puede interactuar en el entorno 
antes de cambiar a otro distinto. Ya que no se sabe la inteligencia o la 
velocidad del agente, se necesita comenzar con problemas muy simples y 
muy poco tiempo para interactuar con el entorno y que progresivamente se 
produzcan entornos mas complejos y se vaya dejando mas tiempo para cada 
entorno. Pero ya que muchos individuos solo seran capaces de aprender e 
interactuar razonablemente bien en algunos pequefios rangos de complejidad 
con un tiempo limite, debe liaber un mecanismo que tambien disminuya la 
complejidad del entorno si el agente no obtiene buenas puntuaciones. 

De este modo, con un test anytime es posible parar el test en cualquier 
momento obteniendo una aproximacion de la inteligencia del agente. 

3.6. Clase de entornos Lambda (A) 

La medicion de la inteligencia general requiere que los sujetos sean eva- 
luados en un conjunto de problemas lo mas general posible, en donde puedan 
demostrar todas sus capacidades. Es por ello que en el proyecto ANYNT se 
ha disehado una clase de entornos (A) [isj^que se utilizara en este sistema 
de evaluacion y que se espera sea lo suficientemente general. Es esta clase de 
entornos la que ponemos a prueba en esta tesis de master; comprobando si es 
realmente adecuada para evaluar la inteligencia general o, por el contrario, 
sigue sin ser lo suficientemente general. 

Esta clase de entornos trata de ser lo mas general posible a la vez que 
incorpora las propiedades que vimos en el capitulo anterior para asegurar 
que los entornos generados sean realmente significativos para una evaluacion 

* Parte del material de esta seccion ha sido extraido a partir de este articulo. 
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apropiada. Los entornos generados por esta clase de entornos estan com- 
puestos por un espacio formado por celdas y sus conexiones entre celdas 
(acciones), y varios objetos (los agentes tambien son considerados objetos) 
que se situan en el espacio ocupando una de las celdas, con la posibilidad de 
moverse a traves de su topologia. 

Empezaremos definiendo como deben ser el espacio y los objetos y, a par- 
tir de ahi, especificaremos las observaciones, las acciones y las recompensas 
de su clase de entornos. Despues veremos que propiedades posee la clase de 
entornos al haberlo disefiado de este modo y, finalmente, como hacen para 
generar estos entornos. 

Antes de nada, es necesario definir algunas constantes que afectan a cada 
entorno. Estas constantes son: Ua = \A\ ^ 2 la cual se refiere al numero de 
acciones, ric ^ 2 es el numero de celdas y n^j el numero de objetos (sin incluir 
al agente que se va a evaluar ni a dos objetos especiales llamados Good y 
Evil que veremos mas adelante). 

3.6.1. Espacio 

El espacio esta definido como un grafo etiquetado dirigido de ric nodos 
(o vertices), donde cada nodo representa una celda. Los nodos estan nu- 
merados desde 1 hasta ric de la siguiente forma: Ci,C2, ...,Cn^- Desde cada 
celda tenemos Ua flechas (o aristas) salientes, cada una de ellas se denota 
como Ci -^a Cj, lo cual significa que la accion a s A sale desde la celda 
d hasta la celda Cj. Todas las flechas salientes desde d se denotan como 
(Cj). Una restriccion del espacio es que en cada celda (como mmimo) dos 
de sus flechas salientes deben conducir a celdas distintas. Mas formalmente 
VCj : 3ri, r2 e (Ci) de tal modo que ri = d -^a^ Cj y r2 = Ci Ck con 
Cj 7^ Cfc y am CLn- Ademas, todas las celdas deben tener una accion refle- 
xiva, de modo que Vz : 3r 6 (Cj) de tal modo que r = Cj -^ai Ci (siendo ai 
siempre la accion reflexiva). 

Un camino desde Cj hasta Cm es una secuencia de flechas Cj Cj, 
Cj —> Ck, Ci Cm- Todo grafo debe ser fuertemente conectado, de modo 
que todas sus celdas deben estar conectadas (p. ej. debe haber un recorrido 
a traves del grafo que pase por todos sus nodos), o, en otras palabras, para 
cada par de celdas Cj y Cj existe un camino desde Cj hasta Cj y viceversa. 
Notese que esto implica que todas las celdas deben tener al menos una flecha 
de entrada (y de salida) desde (y hacia) cualquier otra celda. 

Dada la definicion previa, la topologia del espacio puede ser muy varia- 
da. Puede incluir desde una simple cuadriculsl^ hasta topologias mucho mas 
complejas dependiendo unicamente del numero de celdas y de las flechas que 
existan entre sus celdas. En general el numero de acciones es un factor 
que influencia mucho mas en la topologia que el numero de celdas ric- 

^Se pueden diseiiar todo tipo de cuadriculas, desde cuadriculas 2x2 hasta n x n, 
pasando por cuadriculas toroidales y en 3D. 
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Notese, por ejemplo, que debido a que al menos una flecha debe ser 

reflexiva y al menos otra ticnc que conducir a una cclda diferente, entonces 
si Ua = 2 significa que el espacio necesariamente representa un anillo de 
celdas. 

3.6.2. Objetos 

Las celdas pueden contener objetos a partir de un conjunto de objetos 
predefinidos con rii^ = Los objetos, denotados por cuj, pueden ser ani- 
mados o inanimados, pudiendose percibir en funcion de las reglas que posee 
cada objeto. Un objeto es inanimado (durante un cierto periodo o indefini- 
damente) cuando realiza la accion ai (accion reflexiva) de forma repetida. 
Los objetos pueden realizar acciones en el espacio siguiendo cualquier com- 
portamiento, incluso pueden ser o no deterministas. Los objetos pueden ser 
reactivos y pueden actuar con diferentes acciones dependiendo de sus ob- 
servaciones. Los objetos realizan una y solo una accion en cada interaccion 
con el entorno (excepto los objetos especiales Good y Evil, los cuales pueden 
realizar varias acciones simultaneamente). 

Aparte del agente evaluado tt, como ya hemos mencionado existen dos 
objetos especiales Uamados Good y Evil, representados por © y respec- 
tivamente cuando son vistos por el agente evaluado tt. Sin embargo, son 
indistinguibles para el resto de objetos (incluyendose a si mismos), por lo 
que en sus observaciones estan representados por el mismo simbolo 0. 

Good y Evil deben tener el mismo comportamiento. Por el mismo com- 
portamiento no se refieren a que rcaliccn los mismos movimientos, sino que 
tienen una misma Idgica o programa tras ellos que los hace actuar o moverse 
por el espacio. Notese que Good y Evil se ven entre ellos de la misma forma 
(igual que el resto de objetos exceptuando a tt). Por ejemplo, si Good tiene 
el programa "Hacer la accion a2 a menos que este situado en la celda a la 
que Ueva la accion 02- En este caso, hacer la accion ai", entonces Evil deberia 
tener el programa "Hacer la accion 02 a menos que este situado en la celda 
a la que lleva la accion 02- En este caso, hacer la accion ai". Para el primero 
se refiere a Evil y para el segundo se refiere a Good. 

Los objetos pueden compartir una misma celda, excepto Good y Evil, los 
cuales no pueden estar en una misma celda al mismo tiempo. Si su compor- 
tamiento hace que ambos acaben en la misma celda, entonces uno (elegido 
aleatoriamente con la misma probabilidad) se mueve a la celda a la que 
pretendia llegar y el otro se mantiene en la celda en la que se encontraba 
anteriormente. Debido a esta propiedad el entorno es estocastico (no deter- 
minista). 

Los objetos © y pueden ejecutar muchas acciones en una sola interac- 
cion, realizando cualquier secuencia de acciones (no vacia). Una razon para 
hacer esto es evitar que el agente evaluado comience a seguir a Good co- 
mo una forma facil y optima de obtener recompensas positivas en muchos 
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entornos. 

Al inicializarse el entorno los objetos se situan aleatoriamente en las 
celdas. Esta es otra fuente de comport amiento estocastico. 

Aunque Good y Evil tienen el mismo comport amiento, la celda inicial 
en la que se asigna (aleatoriamente) a cada uno de ellos puede determinar 
una situacion en donde su comportamiento sea muy simetrico con respecto 
al agente vr. Por ejemplo, considerese el siguiente ejemplo: 

Ejemplo 3.6.1 



Imagmese el siguiente espacio de la Figura 3.2 y considerese un compor- 
tamiento de ® y de tal modo que realicen la accion r si y solo si el agente vr 
comparte una celda con cualquiera de ellos (notese que esto puede percibirse 
en las observaciones). De lo contrario, realizan la accion /. 




Figura 3.2: Un espacio anillo donde el estado inicial puede ser critico. 



A partir del estado representado en la Figura 3.2 es facil ver que la 
situacion relativa de los tres objetos solo se puede ver como (vr, 0, 0) o 
cuando el agente comparte una celda con 0, seguido por a la dereclia 
(7r0, 0). Consecuentemente, en este entorno, es imposible para vr compartir 
una celda con 0, aun a pesar de que tanto como tienen el mismo 
comportamiento. En estos casos el estado inicial es critico. 



Siguiendo el ejemplo previo, en |13j definen una "clausula de ciclo" la 
cual funciona de la siguiente forma: Dado un entorno con acciones, y ric 
celdas, se calcula un numero aleatorio n entre 1 y ric""^ (siguiendo una distri- 
bucion uniforme), y entonces despues de n inter acciones, se intercambian las 
posiciones de y de 0. Entonces se computa otro nuevo numero aleatorio 
(de la misma forma) y se vuelven a intercambiar las posiciones transcurrido 
ese nuevo numero de inter acciones, y asi continuamente. La razon de que 
el numero sea aleatorio es para evitar que el ciclo coincida con ningun otro 
ciclo o patron que este presente en el comportamiento de los objetos, como 
por ejemplo "estate cerca de uji durante n inter acciones, tras lo cual debes 
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cambiar de comport amiento y huir de wi hasta pasados n nuevas interac- 
ciones y volver a seguir nuevamente a wi". El objetivo de esta clausula es 
evitar la relevancia del estado inicial en el entorno, ya que, como hemos visto 
anteriormente, podria ser critico. 

Finalmente, las primeras interacciones con el entorno pueden tener lo que 
los autores llaman "basura inicial" [12]. Considerese, p. ej. un comport amien- 
to para ® y el cual sea "empezar haciendo aia2aoaiaiaiao02fl20oOifliQ^oQ^o 
y a partir de este momento hacer siempre ooai"- La primera parte del com- 
portamiento sigue una secuencia que a primera vista parece aleatoria y solo 
cuando se alcanza el patron (la segunda parte del comportamiento), tiene 
sentido comenzar a evaluar el comportamiento de un agente. Consecuente- 
mente, se sugiere dejar que un agente aleatorio interactue durante n inter- 
acciones para sobrepasar mucha de la basura inicial (si existiera) y entonces 
empezar con la evaluacion. El valor de n se puede obtener de la misma forma 
que se hizo para el valor de la "clausula de ciclo". 

3.6.3. Recompensas 

Para las recompensas se trabajara con la nocion de recompensa de la 
celda denotada por r{Ci) y la nocion de rastro. Inicialmente, r{Ci) = para 
todo i. Las recompensas de las celdas se actualizan en cada movimiento de 
® y de 0. En cada interaccion se deja caer r® en la celda en la que se 
encuentre y se deja caer — en la celda en la que se encuentre y el 
resto de recompensas se dividen entre 2. Por lo tanto, una forma intuitiva de 
ver esto es imaginando que y van dejando un rastro positivo y negativo 
de recompensas respectivamente. El agente vr se come las recompensas que 
va encontrando en las celdas que ocupa. Con que se come se quiere decir 
que, tras obtener la recompensa, la recompensa de la celda se establece a 0. 
Si o llegan a una celda en donde se encuentre vr, la recompensa de la 
celda se mantiene a mientras ambos objetos compartan la celda. En otras 
palabras: y no dejan caer recompensas si comparten la celda con vr. 

Los valores de r® y de — r® que y dejan caer en el resto de situaciones 
tambien forman parte del comportamiento de y de (el cual es el mismo, 
sin que esto signifique que r® = r® para todo i). Solo se impone una limita- 
cion en como se generan estos valores, Vi : < r® ^ 1 y V« : < r® ^ 1. Una 
eleccion tipica es simplemente hacer que r® = r® = 1/2 para todo i, aunque 
se necesitan comport amientos de las recompensas mucho mas complejos para 
codificar entornos tambien mas complejos. Finalmente, notese que las recom- 
pensas no son parte de las observaciones, por lo que no se pueden observar 
(directamente) por ningun objeto (incluyendo a vr). 

Cuando vr se mueve a una celda, obtiene la recompensa de la celda que 
se encuentra en esa celda, p. ej. la recompensa acumulada se actualiza de tal 
modo que p = p + r{Ci). 

Con este modo de calcular las recompensas, el orden completo de las 
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recompensas, observaciones y acciones se puede ver de la siguiente forma: 



1. p = 

2. Vi : r{Ci) ^ 

3. Situar los objetos aleatoriamente de modo que ® y esten en celdas 
diferentes. 

4. Se le proporciona pan. 

5. i^O 

6. + 1 

7. Para cada Cj comprobar si contiene a ® y no contiene a vr. En ese caso, 
r{Cj) ^ +rf. 

8. Para cada Cj comprobar si contiene a y no contiene a vr. En ese caso, 
r{Cj) - -rf. 

9. Se producen y se entregan las observaciones a todos los objetos. 
10. El objeto vr actua y se mueve a una celda Cyr- 
il. El resto de objetos actua. 

12. p^p + r{C^) 

13. r(C^) ^ 

14. Vj : r{Cj) ^ r(C,)/2 

15. Si no ha terminado la evaluacion volver a [HI 

16. p <— p/i 

3.6.4. Codificacion de observaciones y acciones 

Las observaciones son una secuencia de celdas con su contenido. Las cel- 
das estan ordenadas en funcion de su numero. Cada elemento en la secuencia 
muestra la presencia o ausencia de cada objeto, incluido el agente evaluado. 
Adicionalmente, cada celda alcanzable (utilizando una accion desde la po- 
sicion actual) se muestra en la observacion. En particular, el contenido de 
cada celda es una secuencia de objetos, donde tt debe aparecer antes que 
y 0, y despues aparecen el resto de objetos en orden en funcion de su mdice. 
Despues vienen las posibles acciones tambien ordenadas por sus indices, y 
denotadas con Ai, en lugar de Oj. La razon de utilizar un alfabeto distinto en 
las observaciones se vera mas adelante. Cada secuencia se separa del resto 
por el simbolo 

Por ejemplo, si tenemos Ua = 2, nc = 4 y n^j = 2 entonces la siguiente 
secuencia '7ra;2^i : : 0^1^42 :' es una posible observacion para el agente 
evaluado vr. El significado de la secuencia es que en la celda 1 tenemos al 
agente evaluado y al objeto 102, en la celda 2 tenemos a Evil, en la celda 3 
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tenemos a Good y al objeto wi y la celda 4 esta vacia. Ademas, podemos ver 
que utilizando la accion ai nos quedamos en la misma celda y podemos ir a 
la celda 3 con la accion 02- Para el resto de objetos (incluyendo a Good y a 
Evil) la misma observacion se veria como 'ttu}2Ai : : QUJ1A2 :'. 



3.6.5. Propiedades 



En esta seccion demostramos que la clase de entornos cumple con las 
propiedades descritas en secciones anteriores. Las propiedades que veremos 
son: (1) la clase de entornos es sensible a las recompensas; el agente puede 
realizar acciones de modo que pueda afectar a las recompensas que reciba 



(vease la Definicion 3.2.1 en la Pagina 28) y (2) la clase de entornos esta 
balanceada; un agente aleatorio tendria una recompensa acumulada esperada 



igual a (vease la Definicion 3.3.4 en la Pagina 30). Las demostraciones para 
esta clase de entornos han sido extraidas de [13j. 

A continuacion vemos la proposicion que demuestra como la clase de 
entornos es sensible a las recompensas: 

Proposicion 3.6.2 La clase de entornos A es sensible a las recompensas. 

Demostracion. Ya que el grafo esta fuertemente conectado, todas las 
celdas son alcanzables por vr. Para demostrar la proposicion tenemos que 
proceder por casos: 



1. Si la celda Cj donde va a parar vr tiene una recompensa distinta de 
0, p. ej. r(Cj) 0. Entonces el agente puede quedarse quieto (siempre 
existe esta accion en cualquier entorno) poniendo la recompensa de la 
celda a 0. En este caso, vamos a los siguientes casos: 

2. Si la celda Cj donde va a parar tt tiene una recompensa 0, p. ej. 
r{Cj) = 0, y tanto ® como se encuentran en otra celda diferente, 
digamos Ck y Ci. Entonces el agente tiene las siguientes opciones: 

■ Quedarse siempre quieto: Obteniendo siempre una recompensa de 
(independientemente de si o vayan a la celda, ya que no 
pueden dejar recompensas si comparten celda con vr). 

■ Moverse a otra celda: En este caso, ya que debe existir un camino 
(el grafo es fuertemente conectado) a ambas celdas {Ck y Ci), si 
va hasta C^, pueden ocurrir muclias cosas distintas por el camino: 

• Si vr obtiene alguna recompensa en este periodo: entonces 
sabemos que dejar Cj nos puede dar una recompensa distinta 
que quedarnos en ella. 

• Si no: entonces llega a Cfc sin ningun cambio en sus recom- 
pensas. Pero ni ni pueden dejar la recompensa de Ck a 
ya que para todo z, < r® ^ 1 y < r® ^ 1 y no dejan de 
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dar rccompensas hasta que se encuentren con tt en la misma 
cclda (notese que ® y dejan cacr sus recompensas despues 
de que tt haya consumido la recompensa) . 

Por lo que en este caso, el agente tt puede elegir entre una recompensa 
de y otra distinta a 0. 

3. Si la celda Cj donde va a parar tt tiene una recompensa de 0, p. ej. 
r{Cj) = 0, y comparte la celda con el y esta en una celda distinta 
Cfc. Entonces el agente tiene las siguientes opciones: 

■ Quedarse siempre quieto: obteniendo siempre una recompensa 
igual a 0. 

■ O moverse a otra celda: Si se mueve a otra celda debe existir un 
camino (el grafo es fuertemente conectado) a la celda Ck- Pueden 
ocurrir muchas cosas distintas por el camino, pero ni ni 
pucdcn poncr csta recompensa a 0. Por lo tanto, tt obtiene una 
recompensa positiva o negativa distinta de 0. 

Entonces, en este caso, tt puede elegir entre una recompensa de y 
otra distinta a 0. 

4. Si la celda Cj donde va a parar tt tiene una recompensa de 0, p. ej. 
r{Cj) = 0, y comparte la celda con el y esta en una celda distinta 
Ck- Este caso es simetrico al anterior y se justifica de la misma manera. 

Ya que los 4 casos previos contemplan todas las posiblcs opciones de 
manera exhaustiva y todos ellos permiten obtener recompensas distintas de- 
pendiendo de las acciones que tt elija, el entorno es sensible a las recompensas. 

■ 

Y finalmente veamos que los entornos estan balanceados: 

Proposicion 3.6.3 La clase de entornos A esta balanceada. 

Demostracion. Por la definicion de A, una recompensa siempre se en- 
cuentra entre [—1,1] y la recompensa acumulada p tambien se encuentra 
entre [—1, 1] ya que dividimos por el niimero de inter acciones. Tambien sa- 
bemos que los objetos especiales y tienen el mismo comportamiento. El 
rcsto de objetos (excepto tt) no puede percibir distincion alguna entre y 
0. Por lo tanto, las posibilidades de que y scan mas favorables para tt 
o de que se comporten de forma distinta solo puede depender de dos cosas: 
el propio agente tt y el estado inicial. Como el estado inicial se elige de for- 
ma aleatoria, para un agente aleatorio que elige entre sus posibles acciones 
de forma aleatoria, el valor medio esperado de las recompensas para cada 
celda es 0, ya que la probabilidad de cualquier accion y estado por parte de 
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® y es igualmente probable que su estado simetrico (todo igual excepto 
las posiciones y rastros de ® y de 0, que se intercambian) . Por lo tanto, la 
recompensa acumulada esperada es 0. ■ 

Notese que la proposicion anterior se mantiene debido a la eleccion alea- 



toria del estado inicial. Por ejemplo, en el Ejemplo 3.6.1 el estado mostrado 



en la Figura 3.2 muestra un estado inicial que hace que la recompensa espe- 
rada para un agente aleatorio no sea (es negativa). A continuacion vemos 
si podemos obtener un resultado que diga que el entorno siempre esta ba- 
lanceado (y no solo debido a la eleccion aleatoria de las posiciones iniciales 
de los objetos). 

Proposicion 3.6.4 La clase de entornos A estd fuertemente balanceada, 
por ejemplo, para cualquier interaccion la recompensa acumulada esperada 
de un agente aleatorio (a partir de esa interaccion) es 0. 

Demostracion. La demostracion se basa en la anterior demostracion. 
Sabemos que la recompensa acumulada esperada para un agente aleatorio 
solo depende de su estado inicial. Dependiendo del estado inicial, el valor 
esperado puede ser distinto de sin considerar intercambios. Pero, debi- 
do a la clausula de ciclo, siempre hay una interaccion en donde © y se 
intercambian. Ya que la longitud del ciclo se elige de modo aleatorio y es 
independiente del comportamiento de y 0, y que el agente se comporta 
de modo aleatorio (y por lo tanto independientemente del comportamiento 
de y y sus intercambios), entonces tenemos que en cualquier interaccion 
j podemos considerar una secuencia de recompensas rj,rj+i,..., ignorando 
los intercambios. Si todos suman 0, entonces la proposicion esta probada. Si 
las recompensas acumuladas dan un valor positivo p, es porque en el Ifmite 
hay mas positivas que negativas (debido a la media del valor acumulado). 
Por lo tanto, cualquier futuro intercambio dara un valor de —p (ignorando 
todos los siguientes intercambios). Recurrentemente, tenemos una secuencia 
infinita de p,—p,p,—p,..., cuyo valor esperado es 0. Se razona de igual modo 
cuando el valor esperado inicial es negativo. ■ 

Las proposiciones previas muestran que el entorno sigue las propiedades 
requeridas para su uso en un test anytime jl^. Esto es importante, ya que 
se requiere que los entornos sean discriminativos (y que sean sensibles a las 
observaciones y a las recompensas es una condicion importante para ello) y 
tambien se quiere que las recompensas no esten sesgadas (no se quiere que 
los agentes aleatorios saquen buenos resultados). 

Otra propiedad que no es tan relevante para el test pero si que es intere- 
sante desde un punto de vista teorico (y especialmente para comparar algunas 
habilidades) es si la clase de entornos previa permite 'aliasing perceptual'. La 
respuesta es un rotundo si. Dada la complejidad del comportamiento de los 
objetos, incluso una observacion completa del espacio no es suficiente (aun 
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sabiendo el comportamiento de los objetos), ya que no conocemos su estado 
interno ni su memoria interna. 



3.6.6. Generacion del entorno 

Finalmente, es necesario poder generar los entornos de manera automa- 
tica y tambien poder calcular su complejidad. Para generar un entorno, es 
necesario generar el espacio (las constantes y la topologia) y el comporta- 
miento para todos los objetos (excepto el de tt). Una primera aproximacion 
podria ser utilizar (como de costumbre) gramaticas generativas (al menos 
esta aproximacion parece facil para construir el espacio). Sin embargo, si se 
va a utilizar una gramatica generativa para codificar el espacio (y, por lo 
tanto, para calcular su complejidad), entonces podria elegirse una gramatica 
generativa que no fuera universal aunque generase espacios validos. En [T3] 
los autores sugieren que esta idea no es del todo correcta. Con una gramatica 
generativa no universal podria ocurrir que la complejidad de un espacio con 
100 celdas identicas fuera 100 veces la complejidad de un espacio con una 
sola celda. Pero esta es una complejidad que va en contra de la nocion de la 
complejidad Kolmogorov (la cual se utilizara para medir la complejidad del 



entorno, vease la Seccion [2.1.4 ) y del ordenamiento de entornos que se esta 
buscando. Notese que la probabilidad de un entorno e debe basarse en K{e) 
(complejidad Kolmogorov de e) y no en su longitud. Una cuadrfcula regular 
de 100 X 100 es generalmente mas simple que un espacio mas enrevesado con 
un niimero mucho menor de celdas. 

En su lugar en |13j proponen utilizar gramaticas generativas universa- 
les, en particular proponen utilizar algoritmos de Markov (vease la Sec- 
cion 



2.1.e 



Para entender mejor como se puede utilizar esta gramatica y ver su ca- 
pacidad expresiva, tras explicar como se codifican el espacio y los objetos, 
codificaremos los algoritmos de un entorno reactivo complejo. 



Codificar y generar espacios 

Primero se necesita obtener el numero de celdas ric y de acciones Ua a 
partir de alguna distribucion utilizando cualquier codificacion estandar para 
numeros naturales (p. ej. la funcion log* en |32||41)). El grafo del espacio se 
define con un algoritmo de Markov sin ninguna restriccion en su definicion, 

^"Aunque el algoritmo tipicamente elige para el tercer paso del algoritmo la subcadena 
situada mas a la izquierda (de entre las subcadenas en s que concuerdan con la regla 
izquierda) para ser reemplazada, modifican el algoritmo para que elija la subcadena situada 
mas a la derecha. El motivo que dan es que sus cadenas representan la interaccion con 
entornos, las cuales normalmente crecen hacia la derecha, por lo que esta parte suele ser 
mas importante. Este es un cambio completamente simetrico, por lo que cambiar esto no 
es mas que una convencion que no cambia el poder expresivo de estas maquinas. 
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pero con la siguiente post-condicion. El espacio generado tiene que represen- 
tarse con una cadena siguiendo esta definicion (utilizamos lenguaje regular 
para esta definicion) aia2(+*|— *). . . o„^(+*|— *) para cada celda dividien- 
dolas con un caracter separador Cada segmento entre ':' enumera a una 
celda, y la informacion en cada celda se compone de las flechas salientes 
(mas precisamente la secuencia de acciones y a que celda conduce cada ac- 
cion, calculado por el numero de sfmbolos + o — . Esta sucesion de + o — es 
el desplazamiento desde la celda actual). Se utiliza un indice toroidal donde, 
p. ej. 1 — 2 = ric — 1 y se omite el desplazamiento cuando la accion conduce 
a la misma celda. 

Con la descripcion y definiciones anteriores es posible codificar (inequf- 
vocamente) cualquier espacio. Sin embargo, si se quiere generar espacios 
utilizando algoritmos de Markov, la cosa es mucho mas dificil, ya que una 
generacion aleatoria de las reglas de Markov puede generar cadenas que no 
representen ningun espacio. Aunque pueden existir optimizaciones, ya que 
no se quiere perder generalidad ni la capacidad de medir la complejidad, los 
autores proponen dejar al algoritmo ejecutarse un numero limitado de ite- 
raciones y entonces pasarle un post-procesamicnto (climinar acciones repe- 
tidas, sfmbolos invalidos, etc.) y entonces comprobar si la cadena resultante 
representa a un espacio valido (sintactica y semanticamente) . 

Para el calculo de la complejidad, cualquier aproximacion de la longitud 
del algoritmo de Markov (p. ej. el numero de sfmbolos del algoritmo entero) 
serfa valido como una aproximacion de su complejidad. 

CodificEir y genersir objetos 

Para generar los objetos, primero se obtiene el numero de objetos n^, a 
partir de alguna distribucion y se codifica utilizando cualquier codificacion 
para los numcros naturales como se menciona anteriormcntc. Despues se 
tienen que obtener (con una distribucion uniforme) y codificar sus celdas 
iniciales, codificando n^j + 3 numeros naturales {riw para los objetos + 3 
para tt, ® y 0) delimitados entre 1 y ric (no necesariamente diferentes). En 
el caso de que © y esten en la misma celda, se recalculan sus numcros. 

El comport amiento (que debe ser universal) es generado por otro al- 
goritmo de Markov. Para disminuir la cantidad de reglas del algoritmo y 
mejorar su comprension, vamos a enriquecer la notacion con los sfmbolos: 
'[]' ~ 'opcionalidad', '(|)' = 'varias posibilidades', 'x' — 'cualquier sfmbolo 
del alfabeto del algoritmo' y '(x ^ {})' — 'cualquier sfmbolo del alfabeto del 
algoritmo excepto'. Si alguno de estos sfmbolos aparece con un subfndice 
(p. ej. (Ai|7r)i) significa que todas las apariciones del sfmbolo con ese subfn- 
dice estan ligadas (es decir, todas sus apariciones deben ser sustituidas por 
el mismo sfmbolo). 

Veamos un ejemplo para entender como se interpretan estos sfmbolos. 
Con Ua = 2 Y riw = 0, la regla [(xi ^ {^i, 7r})]Ai(7r|0)2 ^ (7r|0)2[xi] se 
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sustituira por las siguientes reglas de Markov: 



1. A2AlTT ■KA2 

2. ^2^10 ^0^2 

3. 0^i7r^7r0 

4. 0^10^00 

5. AiTT TT 

6. .410^0 

Solo con la observacion actual los objetos no tendrian acceso a la memoria 
y estarian muy limitados, por lo que se anaden dos simbolos especiales A 
y V que significan respectivamente: poner la cadena actual en memoria o 
recuperar la ultima cadena insertada en memoria. Ademas, si A se situa 
encima de algun simbolo, solo este se guardara en memoria (esto solo ocurrira 
si la regla ha sido lanzada); p. ej. Af' solo guardara Ai. V se sustituye por 
la cadena recuperada de la memoria. 

La cadena de entrada del algoritmo es la observacion que le proporcio- 



na el entorno, codificada como hemos visto en la Seccion 3.6.4 Una vez el 
algoritmo de Markov se ha ejecutado, todos los simbolos que no estan en el 
conjunto de acciones A se eliminan de la cadena. Entonces, para todos los 
objetos (excepto para ® y 0), la accion mas a la derecha en la cadena es la 
accion que se realiza. Para ® y se utiliza toda la cadena. 

Para el calculo de la complejidad, seria valida alguna aproximacion de la 
longitud del algoritmo (p. ej. el numero de simbolos del algoritmo entero). 

Es importante remarcar que la complejidad de un conjunto de objetos no 
es la suma de las complejidades de los objetos. Alternativamente, los autores 
sugieren utilizar un bit extra en cada regla indicando si la regla es nueva 
o no y ahadir identificadores a las reglas que se reutilizan para tener una 
forma de referirse a otras reglas en otros objetos. Consecuentemente, si 100 
objetos comparten muchas reglas, la complejidad de todo el conjunto sera 
mucho mas pequeha que la suma de las partes. 



Codificacion de un entorno complejo 

Tras ver como se codifican los entornos vamos a mostrar un ejemplo para 
ver como se codificaria el entorno reactivo complejo de la Figura [3?3l En este 
entorno los objetos Good (®) y Evil (0) se mueven siempre tres celdas a la 
izquierda seguido de tres celdas a la derecha (una celda por cada accion) a 
menos que vayan a situarse en la misma celda en la que se encuentra el objeto 
LOi, en cuyo caso cambian su accion y se mantienen en la celda. El objeto 
LOi se mantiene siempre en la misma celda a menos que coincida con vr, en 
cuyo caso cambiara de celda del siguiente modo: si vr hubiera venido desde 
su accion T utilizara la accion 'r' para alejarse y viceversa. Si solo existe una 
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accion con la que abandonar la celda, sera la que utilice independientemente 
de por donde liubiera venido it. 




Figura 3.3: Situacion inicial de un entorno reactivo con un objeto (wi) y con 
comport amiento complejo. 

Lo primero que haremos sera codificar el espacio. Veamos un algoritmo 
de Markov que lo genera. 

1. lr+ : 

2. C ^l-r+: 

3. R^-l-r 

4. -^LCCCCR 

Tras disparar la secuencia de reglas 4-1-2-2-2-2-3, facilmente vemos como 
la cadena generada (lr+:l-r+:l-r+:l-r+:l-r+:l-r) representa claramente al 
espacio deseado. 

A continuacion codificaremos todos los objetos presentes en el entorno. 
Veamos un algoritmo de Markov que genera el comportamiento de ui. 

1. S{L\R)^ S 

2. 7r[0]a;i V^> 

3. 7T{x^{L,R,:})^7r 

4. tt{L\R)^ ^ 

5. R^ -^-l 

6. L$ -^-r 

7. -^-s 
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General algun comportamiento para los objetos requiere de algoritmos 
mas complejos. Una forma de codificar comportamientos es dividirlo en fun- 
cion de subcomportamientos mas simples. En este algoritmo, la primera regla 
comprueba si alguna de las acciones Lo R dejaria al objeto en la misma celda 
y, en este caso, guarda en la memoria que no podra utilizarla para huir. La 
tercera regla elimina simbolos innecesarios de la cadena que representa a la 
celda en la que se encuentra vr. La cuarta regla comprueba si vr esta en alguna 
celda adyacente y, si fuera el caso, se guarda en memoria con que accion le 
ha visto. La segunda regla comprueba si vr se encuentra con el objeto y, si 
se diera el caso, recupera el simbolo de la memoria (en verdad este simbolo 
representa la accion que no debera hacerse bajo ninguna circunstancia) y 
marca en la cadena que se debera realizar un movimiento para escapar de 
vr (<I>). La quinta y sexta reglas se lanzan unicamente cuando se ejecuto la 
segunda regla, es decir, cuando se detecto que vr se encontraba en la misma 
celda que coi. Cuando se da esta situacion se comprueba: (1) cual fue la ac- 
cion desde la que vino tt (si se lanzo la cuarta regla) o (2) la accion que no 
permitia al objeto huir de la celda (si se lanzo la primera regla). En ambos 
casos se ejecuta la accion contraria para escapar de vr. La ultima accion se 
ejecutara siempre que el objeto no coincida con vr. 

Y finalmente codificamos el comportamiento de ® y 0. Veamos un algo- 
ritmo de Markov que genera su comport amientoj^ 

2. LOiL Ej 

3. uJiR Ed 

4. {tt\uji\S\L\R\ :) ^ 

5. Q{Ei\Ed)i ^ {Ei\Ed)iQ 

6. 00^ $/V$F 

7. [Ej\Ed]H{I\D)^f 

8. {I\Dh^F ^ ^F{I\Dh 

9. $/^>F HA 

10. {EjHI\EdHD) ^-s 

11. HI^-l 

12. HD^-r 

13. H HIIIDDDA 

Para comprender este algoritmo hay que tener dos conceptos claros: (1) 
Debemos tener guardado en memoria el patron que queremos realizar y cual 

^^Hay que recordar que ambos objetos deben tener el mismo comportamiento, per lo 
que ambos comparten el mismo algoritmo de Markov. 
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fue la ultima accion que hicimos. Esta informacion debera guardarse en cada 
ejecucion del algoritmo. (2) El algoritmo, tras recuperar el patron de la 
memoria, debe ser capaz de reconocer que la primera accion ya se realize en 
la interaccion anterior y debera eliminarlo antes de proseguir con la siguiente 
accion. 

Con estos dos conceptos en mente podemos dividir el algoritmo en cuatro 
secciones. La primera seccion (reglas 1, 2 y 3) comprueba si se puede llegar a 
uji con alguna de las acciones L o R y se marca que debera evitarse realizar 
estas acciones con los simbolos Ej y respectivamente. La segunda seccion 
(reglas desde la 4 hasta la 6 izquierda) elimina el resto de simbolos de la 
cadena (notese que solo queremos guardar el patron de movimientos, por 
lo que hay que evitar mantener informacion innecesaria) y mantenemos el 
simbolo Ej o Ed a la izquierda, ya que es necesario para decidir la accion 
en esta interaccion. La tercera seccion (reglas desde la 6 derecha hasta la 9 
izquierda) procesan el patron recuperado de memoria para eliminar la accion 
que se hizo en la interaccion anterior. Y finalmente, la cuarta seccion (reglas 
desde la 9 derecha hasta la 13) guarda el patron y la accion actual en memoria 
y selecciona la accion a realizar. 



En la Figura 3.4 vemos la situacion ideal a la que se puede llegar si 
TT realiza una secuencia de movimientos adecuada. Ya que wi bloquea el 
paso, (Evil) no se movera nunca de su celda y @ (Good) dispondra de las 
suficientes celdas para moverse sin ser bloqueado por oji. 




Figura 3.4: Situacion ideal para vr en el entorno reactivo de la Figura 3.3 
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Capitulo 4 



Aproximacion implement ada 
del sistema de evaluacion 

El marco conceptual anteriormente descrito, es una idea general de como 
se pueden construir tests universales. En lugar de implementar los tests tal 
y como sugieren los autores, en un trabajo previcj^se construyo gran parte 
de la arquitectura con algunas simplificaciones pero, sin por ello, renunciar 
a las caracteristicas y propiedades mas importantes que debe tener un test 
supuestamente universal. Por una parte se mantuvo la estructura principal: 
agentes, entornos y espacios y las inter acciones entre ellos, mientras que por 
otro lado se simplificaron otros aspectos como: el comportamiento de los 
agentes, la generacion de los espacios y la construccion de las observaciones. 

En esta seccion describimos la arquitectura que se realize en este trabajo 
previo e incluimos las modificaciones que se ban realizado en esta tesis de 
master. En concreto, del trabajo previo vemos: (1) las principales diferencias 
entre el marco conceptual antes descrito y la implement acion realizada, (2) 
la arquitectura construida del sistema de evaluacion y (3) dos modos de uso 
del sistema de evaluacion (uno construido para asistir en su desarrollo, y 
otro para evaluar algoritmos de lA). Ademas, en esta tesis se ha afiadido: (1) 
varias modificaciones que dotan de mayor flexibilidad al sistema de evalua- 
cion, (2) una primera version de un interfaz grafico con el que evaluar a los 
seres humanos (esta interfaz ha sido disehada con el objetivo de que fuera 
lo mas apropiada e intuitiva posible) y (3) se ha implementado un algoritmo 
de referenda de lA conocido como Q-learning, con el cual probaremos a la 
clase de entornos. 

^http://users. dsic.upv.es/proy/anynt/Memoria.pdf 
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4.1. Principales diferencias entre el marco concep- 
tual y la implementacion realizada 



En esta seccion vemos las principales diferencias de la aproximacion im- 
plementada del sistema de evaluacion con respecto al marco general del ca- 
pitulo anterior. 



4.1.1. Objetos y agentes 

Hemos hecho una jerarquizacion distinta entre objetos y agentes. Ambos 
son objetos, pero si el objeto es animado (es decir, tiene un comport amiento 
que le permite moverse a traves del espacio) entonces es un agente. Este cam- 
bio no tiene ninguna implicacion en el sistema, es una cuestion meramente 
de implementacion. 



4.1.2. Comportamiento de los agentes 

De momento no hemos utilizado ningun lenguaje de especificacion con el 
que generar el comportamiento de los agentes. Para ello, hemos implementa- 
do a mano varios tipos de comport amientos estandar: movimiento aleatorio, 
patron de movimientos, etc. 

Por otro lado. Good y Evil siguen dejando caer sus recompensas al com- 
partir celda con el agente a evaluar. Un pequefio cambio que, sin embargo. 



hace inservible parte de la demostracion de la Proposicion 3.6.2 la cual afir- 
ma que los entornos son sensibles a las recompensas. En esta proposicion se 
demostraba como el agente puede elegir entre obtener una recompensa igual 
a u obtener una recompensa distinta de (positiva o negativa). Concreta- 
mente este cambio invalida la demostracion de que un agente sea capaz de 
asegurarse una recompensa igual a simplemente quedandose quieto en una 
celda. Ya que Good y Evil siempre dejan caer sus recompensas, al compartir 
celda con el agente evaluado, este no podra asegurarse obtener una recom- 
pensa de 0, ya que consumira la recompensa que dejen Good o Evil. Debido 
a este cambio debemos reformular esta parte de la demostracion. 



Proposicion 4.1.1 La aproximacion a la clase de entornos A implemen- 
tada es sensible a las recompensas. 

Demostracion. Sketch. El cambio realizado incapacita el comporta- 
miento del agente de quedarse parado en una celda para obtener una recom- 
pensa de 0. Sin embargo, sigue siendo posible obtener esta recompensa si el 
agente modifica su comportamiento a uno aleatorio, ya que este comporta- 
miento tiene una recompensa esperada igual a tal y como puede verse en 
las Proposiciones |3.6.3 y 3.6.4| 
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Ya que se sigue demostrando que es posible elegir obtener una recompensa 
media igual a y el cambio realizado no invalida el resto de la demostra- 
cion de la Proposicion 3.6.2 la clase de entornos implementada sigue siendo 



sensible a las recompensas. 



4.1.3. Generacion del espacio 

Por el momento, no se genera un algoritmo de Markov para describir 
el espacio. En su lugar, se genera directamente la cadena que lo representa 
utilizando una combinacion de las distribuciones geometrica y uniforme. 

Existen dos formas para construir el espacio: (1) se proporciona manual- 
mente su descripcion o (2) se deja que la descripcion se genere aleatoriamente 
y se comprueba que el espacio que representa esta fuertemente conectado. 
En ambos casos es necesaria una descripcion del espacio para posteriormente 
construir su topologia (celdas y acciones). 

A continuacion vemos como se codifica esta descripcion y el procedimien- 
to que se sigue para su generacion. 



Codificacion del espacio 

Se ha utilizado la codificacion para espacios del marco conceptual visto 
en la Seccion 3.6.6 en la Pagina 42 con dos pequefias modificaciones: (1) 
Utilizamos el simbolo '|' para separar las celdas. (2) La accion reflexiva sera 
siempre la accion 0. Esta accion, al estar implicita en todos los espacios, se 
omite en la descripcion. 

Vamos a ver un ejemplo: 



1+2++3 1 1+23- 1 1+23 1 1+2--3- 



Como podemos ver en esta descripcion, el espacio se divide en 4 celdas 
y se pueden realizar 4 acciones (3 acciones mas la accion reflexiva 0). Desde 
la primera celda se llega liasta la segunda celda tras realizar la accion 1, la 
accion 2 nos lleva a la tercera celda y la accion 3 deja al agente en la misma 
celda. Si vemos la descripcion de la cuarta celda podemos ver como la accion 
1 nos mueve a la primera celda (se asume una distribucion toroidal), con la 
accion 2 llegamos a la segunda celda y la accion 3 nos devuelve a la tercera 
celda. 

En la Figura [4!T1 podemos ver una representacion grafica de este espacio. 



Generacion aleatoria de la descripcion 

Es posible generar la descripcion del espacio aleatoriamente. Hemos uti- 
lizado los siguientes pasos para generarla: 
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Figura 4.1: Espacio representado por la cadena 'l+2++3|l+23-|l+23|l+2--3-' 
omitiendo la accion reflexiva 0. 

1. Se decide el niimero de celdas que componen el espacio (nc): Para 
decidir el numero de celdas se ha utilizado una distribucion geometrica 
con p = 1/2. Para elegir el numero de celdas, asociamos el numero de 
intentos para obtener un exito dentro la distribucion con el numero 
de celdas que tendra el espacio (empezando a partir de 2 celdas) del 
siguiente modo: si la distribucion tiene exito en el primer intento el 
espacio tendra 2 celdas, si tiene exito al segundo intento tendra 3 celdas, 
etc. Establecemos un numero niaximo de celda rimax, esto es util para 
cuando desarrollemos el interfaz, que el numero de celdas siempre nos 
pueda caber en pantalla. Normalizamos la distribucion de modo que si 
se llega a la celda rimax siempre tenga exito. 

2. Se decide el numero de acciones que componen el espacio (n^): De 
igual modo que con el numero de celdas, utilizamos una distribucion 
geometrica para elegir el numero de acciones y normalizamos utilizando 
el numero de celdas como el numero maximo de acciones. 

3. Se eligen las conexiones entre las celdas: Para elegir a que celdas estan 
conectadas las acciones se sigue el siguiente procedimiento: (1) utiliza- 
mos una distribucion uniforme para elegir el simbolo (+ o — ) y, (2) de 
nuevo una distribucion uniforme entre (la accion mantiene al agen- 
te en la celda) y el numero de celdas para elegir el desplazamiento. 
Inscrtamos tantos simbolos (+ o — ) tras la accion como indiquc cl des- 
plazamiento para formar una conexion. Este procedimiento se seguira 
para todas las acciones en todas las celdas. 
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4.1.4. Observaciones 



Segun el marco conceptual, a los agentes se les proporcionan las obser- 
vaciones a traves de una tira de caracteres como podemos ver en la Sec- 
cion 3.6.4 Sin embargo, para esta implement acion, se opto por realizar una 



copia de la estructura del espacio (incluyendo los objetos situados en cada 
celda) y enviarles esta misma copia a todos los agentes como su observa- 
cion del entorno. De este modo, todos los agentes tienen una misma vision 
completamente observable del entornoj^ 



4.1.5. Parametrizacion del entorno A 

Ademas de estos cambios, en esta tesis de master se ban anadido va- 
rias caracteristicas nuevas que permiten parametrizar algunos aspectos del 
sistema de evaluacion, proporcionandole una mayor flexibilidad. Entre estas 
caracteristicas estan: 

■ La comparticion o no de la recompensa de la celda si varios agentes 
se encuentran en ella, por lo que si dos agentes se encuentran en una 
celda con una recompensa de 0,5, entonces se les repartira 0,5/2 = 0,25 
a cada uno de ellos. 

■ El momento en el que se consumen las recompensas (siendo antes o 
despues de actualizar las recompensas de las celdas), intuitivamente 
podemos entender este parametro como la facilidad de obtener mte- 
gras las recompensas que dejan caer Good y Evil (esto es, sin que el 
entorno las haya modificado). Si se establece que se consumen antes, 
con seguir un paso por detras a Good o a Evil obtendremos su recom- 
pensa Integra, mientras que si se consumen despues, solo se conseguiran 
obtener cuando coincidamos con ellos en la misma celda. 

■ La desaparicion o no de las recompensas de las celdas una vez que los 
agentes las ban consumido. 

■ El numero por el que se dividen las recompensas (factor de division) 
que se encuentren en el entorno en cada iteraciorj^ 

Con la insercion de estas caracteristicas, los entornos disponen de una 
mayor flexibilidad dependiendo de los parametros que se seleccionen para 
cada una de sus caracteristicas. Podemos apreciar parte de esta flexibilidad 
en el Ejemplo [4.1.2 

■^Aunque los agentes puedan ver toda la informacion del espacio (incluidas las recom- 
pensas), solo hacen uso de la informacion a la que deberian tener acceso como propone la 
definicion de las observaciones descrita en el marco conceptual. 

^Este factor permite un amplio abanico de posibilidades al actualizar las recompensas: 
un factor de 1 implica que las recompensas se mantendran intactas entre iteraciones, 
con un factor de 2 las recompensas se dividen a la mitad, un factor de oo eliminara las 
recompensas en cada interaccion, . . . 
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Ejemplo 4.1.2 

Imagincmos un cntorno con 5 agcntcs, cn dondc las rccompcnsas no se 
comparten entre los agentes (todos obtienen la recompensa de la celda en la 
que se encuentren sin dividirla entre el resto de agentes que se encuentren 
en esa misma celda), se consumen antes de ser actualizadas (per lo que con 
scguir un paso por detras a Good se conseguira su recompensa Integra), ni 
desaparecen tras ser consumidas por los agentes y con un factor de division 
igual a 2. Con esta configuracion. Good y Evil van dejando un rastro de 
recompensas, las cuales, conforme mas tiempo transcurra desde que fueron 
dejadas, se van haciendo mas y mas pequefias (1, 1/2, 1/4, 1/8, . . . ). 

En este entorno, todos los agentes pueden simplemente seguir a Good 
(conforme le vayan encontrando) como un comportamiento optimo, de modo 
que todos obtengan la recompensa Integra (1). Ademas, el rastro de recom- 
pensas no desaparecera tras ser consumidas por los agentes, por lo que aun 
resultara mas facil averiguar por donde se encuentran Good y Evil. 

Si modificamos este entorno de modo que se empiecen a compartir las 
recompensas entre los agentes, entonces, en la situacion anterior, puesto que 
Good deja cacr una recompensa de 1 y hay 5 agentes en la celda, cada uno ob- 
tendra una recompensa igual a 1/5. Sin embargo, ya que las recompensas no 
desaparecen tras ser consumidas, las anteriores celdas por las que paso Good 
seguiran con las recompensas 1/2, 1/4, 1/8, ... (notese que la comparticion 
de las recompensas no modifica la recompensa de la celda, unicamente esta- 
blece que parte de la recompensa se Ueva cada agente), por lo que existiran 
mejores recompensas que la que actualmente obtienen los agentes. 

Este pequeno cambio hace que los agentes tengan que buscar una posicion 
que Ics otorgue una mejor recompensa. Sin embargo, la recompensa que 
recibiran los agentes en cada celda va variando conforme se van modificando 
las posiciones de todos los agentes (ya que se comparten las recompensas en 
funcion del numero de agentes) , por lo que deberan competir para conseguir 
las mejores posiciones (y por lo tanto recompensas) posibles. 

Si encima se modificase el factor de division de 2 a 3, entonces el rastro 
de recompensas seria: 1, 1/3, 1/9, 1/27 . . . , por lo que quedan'an menos 
celdas que proporcionen recompensas mejores a 1/5. En este caso, los agentes 
deberan competir con el resto de agcntcs cn un conjunto de celdas aun mas 
reducido si pretenden obtener buenas recompensas. 



4.2. Arquitectura del sistema de evaluacion 

La estructura del test esta constituida por una serie de ejercicios para 
cada test. Cada uno de estos ejercicios se realiza en un entorno generado a 
partir de la clasc de entornos, en dondc se cvaluaran a los agentes. Ademas, 
en los entornos generados por esta clase de entornos (mas concretamente en 
sus espacios) podran anadirse cualquier numero de objetos (y de agentes). 
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Este sistema de evaluacion esta divide en dos partes: (1) una interfaz 
grafica con la que el usuario (humano) podra interactuar con el sistema y 
(2) la estructura interna que se ha disefiado para constituir el propio test 
(clase de entornos, ejercicios, espacio, objetos, . . . ). 

Ya que el sistema sigue en desarrollo, la arquitectura del test aun no ha 
sido implementada por completo. Sin embargo, si que se ha disehado una im- 
plementacion preliminar con la que poder comenzar a realizar evaluaciones, a 
la vez que es posible seguir con su construccion. En concreto se ha implemen- 
tado gran parte de la arquitectura necesaria para realizar un ejercicio (clase 
de entornos, espacio, objetos, agentes, test en el que se esta realizando, . . . ), 
pero sin llegar a construir definitivamente las transiciones entre ejercicios, 
por lo que, si quisiera realizarse un test, deberan seleccionarse a mano las 
caracteristicas de los ejercicios que se deseen utilizar. 

En el Apendice [X] podemos ver el diagrama de clases del diseho e imple- 
mentacion del test y una explicacion de sus partes mas importantes. 

4.3. Realizacion de un test 

Un test es un conjunto de ejercicios y cada ejercicio esta representado 
por un entorno. 

Por el momento no generamos los entornos siguiendo ninguna distribu- 
cion adaptativa ni tampoco no adaptativa. Los entornos deberian generarse 
en funcion de la complejidad de los entornos anteriores y del resultado que 
hubiera obtenido el agente en ellos. Sin embargo, en esta aproximacion, ca- 
da entorno se genera a partir de las propiedades que queremos que tenga 
(numero de celdas, numero de acciones, . . . ). 

Se han implementado dos metodos con los que determinar la duracion 
que dispondran los agentes para interactuar en cada entorno: (1) un numero 
maximo de interacciones o (2) un tiempo maximo para interactuar con el 
entorno. Transcurrido este periodo las interacciones con el entorno habran 
terminado. 



4.4. Realizacion de un ejercicio 

En esta seccion vemos en detalle como se realiza un ejercicio con el sis- 
tema de evaluacion desarroUado. 

Antes de comenzar, debe prepararse el entorno donde se realizara el ejer- 
cicio: el espacio y los objetos que contiene. 



1. Se genera el espacio siguiendo los pasos descritos en la Seccion 4.1.3 

2. Se generan todos los objetos (incluyendo a Good y Evil) y su compor- 
tamiento. Si su comportamiento sigue un patron, se genera en funcion 
de un conjunto de acciones (normalmente las posibles en el entorno) 
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y un parametro de parada Pstop siguiendo estos pasos: (1) Se generara 
una accion aleatoria (de entre el conjunto de acciones) siguiendo una 
distribucion uniforme. (2) Se comprueba si una distribucion geometri- 
ca con p = Pstop tiene exito para parar de generar el patron. De lo 
contrario se vuelve al paso (1). 

3. Se colocan aleatoriamente todos los objetos en el espacio (incluyendo 
al agente evaluado), siguiendo una distribucion uniforme entre 1 y el 
numero de celdas ric- Si Good y Evil se colocan en la misma celda, se 
recalculan dos nuevas celdas para ellos mientras sigan coincidiendo en 
la misma celda. 

4. Se establecen las recompensas de las celdas a 0. 

Tras preparar el entorno, comienza el bucle principal para las interaccio- 
nes con los agentes: 

1. Recolocar a los agentes Good y Evil si ha transcurrido el numero de 
interacciones de la clausula ciclo (para entender el motivo de esta clau- 



sula vease el Ejemplo 3.6.1 y la solucion propuesta a continuacion). 



2. Los objetos Good y Evil dejan caer sus respectivas recompensas en sus 
celdas. Good deja caer una recompensa positiva mientras que Evil deja 
caer una recompensa negativa. 

3. Se copia la estructura interna del espacio (con los objetos que se en- 
cuentran dentro) para proporcionarla como observacion. 

4. Para cada agente (incluyendo al agente evaluado): 

■ Se le entrega la recompensa de la inter accion anterior. Si fuera la 
primera interaccion se entrega una recompensa inicial igual a 0. 

■ Se le entrega la observacion (la copia de la estructura del espacio). 

■ El agente indica la accion que pretende realizar siguiendo su pro- 
pio comport amiento. 

5. Se realizan simultaneamente las acciones de todos los agentes. Si Good 
y Evil pretenden colocarse en la misma celda se procede del siguiente 
mo do: 

■ Si Good no se movio en esta interaccion, el agente Evil fue el que 
intento colocarse en la celda en la que se encontraba Good, por 
lo que Evil no se mover a. 

■ Analogamente a la situacion anterior, si Evil no se movio en esta 
interaccion entonces Good no se movera. 
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■ En cualquier otro caso, tanto Good como Evil se movieron a la 
misma celda sin que ninguno se encontrarse previamente en ella. 
En este caso se decide aleatoriamente cual de los dos objetos no 
se mover a en est a inter accion. 

6. Se calculan las recompensas para todos los agentes y se almacenan para 
ser entregadas en la siguiente inter accion. 

7. Se actualizan todas las recompensas de las celdas. 

8. Si el ejercicio aun no ha terminado, seguir con el bucle. 



Una vez se ha terminado el ejercicio, se envian a los agentes las recompen- 
sas que quedaron pendientes de la ultima interaccion del bucle y se calcula la 
media de las recompensas obtenidas del agente evaluado durante el ejercicio. 
Esta media representa el resultado (o la inteligencia demostrada) del agente 
en el ejercicio. 



4.5. Modos de interaccion con el sistema de evalua- 
cion 

Los modos de interaccion son los que permiten interactuar a los sujetos 
(humanos, algoritmos, . . . ) con el test. Estos modos pueden estar diseha- 
dos como interfaces graficas o simplemente como una interfaz (no grafica) 
dependiendo de la naturaleza del sujeto para el que se ha construido. 

En el trabajo previo se diseiiaron dos de estos modos: Uno de ellos se 
diseho como una interfaz grafica para ayudar a los autores con el desarrollo 
del propio test (Modo investigacion) . El otro fue disehado como interfaz (no 
grafica) para permitir la interaccion de los agentes de algoritmos software 
de lA (Modo algoritmo de lA). En esta tesis hemos ahadido (como interfaz 
grafica) un nuevo modo para que agentes humanos puedan interactuar con 
el sistema (Modo ser humano). A continuacion detallamos los tres modos. 



4.5.1. Modo investigacion 

Este modo se ha disehado explicitamente para asistir durante el desa- 
rrollo y la implement acion de los tests del sistema de evaluacion. Por lo 
tanto, para poder probar mejor el sistema, permite generar cualquier tipo 
de ejercicio modificando cualquier parametro del entorno y de los agentes 
implement ados. Ademas, con este modo se proporciona una amplia interfaz 
con la que se puede ver completamente el estado del entorno. 



A continuacion vemos en las Figuras 4.2 y 4.3 las interfaces que permiten 
generar el espacio y el comport amiento para Good y Evil que se utilizaran 
durante la prueba. 
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Space 

Humber of cells — 

O Manual | | | 

Minimum no.ofcel[s |2 | | 

(■) Geometric -distributktn i 1 — i 

MaxLinum no. of ceils |S | | 

Topology 

O Without restrictions 

O Connected space 

® Strongly connected space 



Generate space 



Generat&d spacer 



Generated no. of cells; Generated no, of actions: 



Do you agree with the generated space? 



Agree 



Number of actions 
O Manual 



Minimum no. of actions |2 \^\ 

(•) Geometric distnbution i 1 — i 

Mayimum no.of act'tons \Q \^\ 



Figura 4.2: Interfaz para modificar las caractensticas del espacio en el modo 
investigacion. 



Behaviour ol reward generators [Good and EvilJ 

No. of actions per step 

Given by the pattern length orbvan unallowefl action 
O Always perform a fixed no. of actions 

Speclfv fixed no. of actions 

O Manual I'' Minimum movements [ | - | 

O Geometric distranition Haximuni movenients [2~[V] 



Generalors relocalk>n 



® Randomly relocat& the generators alter n steps: | 25 
O Never rek>cate 



Tyijeof Ijeiiavkjur 

Follow a pattern O Move randomly 
Pattern [lescr[ptfon 

O [Jescribe manually ' 
® Generate pattern random^ (nnif. dist. on actions, unlv.dlst. on lenrgth> 

l^ttern length factor (stop probabliny Is inverse to tilts factor} | lO | 
Pattern 111102112010102 , | derate] | 
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Figura 4.3: Interfaz para modificar el comport amiento de Good y Evil en el 
modo investigacion. 



En la Figura 4.4 se puede seleccionar (y configurar si es posible) al agente 
que se quiere probar y se puede especificar las caracterfsticas que poseera el 
entorno para el ejercicio. 

En la Figura 4.5 podemos ver la interfaz que se muestra durante la prue- 
ba. Esta interfaz esta formada por todos los detalles del entorno actual, desde 
la observacion (incluyendo incluso las recompensas) hasta el comport amiento 
de los agentes Good y Evil y su situacion actual. 
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Evafuabte Agent 

I O Human O Trivial Foiiower (•) Random O Oracle O Q Learning 



Agent Parameters 

Alfa: iearning rats. Hov; important previous reward5are<0:learnsinfiniteiv slow/) 

Beta : random exploration degree. Degree of randomness instead otoptimai choice (O:optimai choice) 

Gamma: discount factor. Preference for long-term rewards (0: opportunistic) 

QO: initial values for the Q-learning matrix (0.0 „. 2.0) 
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Cell reward decreasing factor 
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O Infinite {so rewards are set to after each step) 



Cell rewards disappear after being consumed by evaluable agents? 
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Are ceil rewards shared by several evaiuabie agents sharing the same cell? 
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Do yiHi ag ree with the session options? 
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Figura 4.4: Interfaz para modificar el ejercicio en el modo investigacion 
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Figura 4.5: Vision completa del entorno en el modo investigacion. 
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4.5.2. Modo algoritmo de lA 

Ya que este modo se ha disehado para algoritmos software, no posee nin- 
guna interfaz visual de usuario. El test interactua con los algoritmos mediante 
las observaciones y las recompensas. Las observaciones, como se indico en la 



Seccion 4.1.4 en la Pagina 53, constan de una copia del espacio con todos sus 
atributos, a partir del cual los algoritmos recogen la informacion que nece- 
sitan. Sin embargo, esta implement acion esta preparada (siguiendo la teoria 
del marco conceptual) para proporcionar la observacion utilizando cadenas. 
Se les proporcionara a los agentes las recompensas utilizando numeros reales 
entre [—1,1]. 

4.5.3. Modo ser humano 

En esta tesis de master hemos disenado e implementado una primera 
interfaz para evaluar seres humanos. Esta interfaz se ha desarrollado con el 
objetivo en mente de que fuera lo mas apropiada (a la vez que intuitiva) 
posible. 

La interfaz para humanos se ha disehado con los siguientes principios 
en mente: (1) los simbolos utilizados para representar las observaciones no 
tienen que tener ningun significado explicito para el sujeto que va a realizar 
el test para evitar sesgos a su favor (p. ej. no utilizar una calavera para 
el agente Evil) y (2) las acciones y las recompensas deberian ser facilmente 
interpretables por el sujeto para evitar un mayor esfuerzo cognitivo. Podemos 



ver esta interfaz en la Figura 4.6 



Las celdas se representan con cuadrados coloreados. Los agentes se re- 
presentan con simbolos que tratan de ser lo mas 'neutrales' posibles (p. ej. ♦ 
para Evil y ^ para Good y Q representando al sujetc]^ Las celdas accesibles 
tienen un borde mas grueso que las no accesibles. Cuando el sujeto situa el 
puntero del raton encima de una celda accesible, esta celda se destaca utili- 
zando un borde doble e incrementando la saturacion de los colores de fondo. 
Las recompensas positivas, neutrales y negativas se representan respectiva- 
mente con una flecha hacia arriba en un circulo verde, un cuadrado pequeho 
en un circulo gris y una flecha hacia abajo en un circulo rojo. El motivo de 
no utilizar los tipicos simbolos representativos para el acierto / y fallo X, es 
que las recompensas no se corresponden directamente con aciertos o fallos, 
ya que, por ejemplo, en una situacion dada, una accion con mala recompen- 
sa podria ser la mejor accion posible al acercarse mas a una zona en donde 
posteriormente se otorgaran recompensas positivas. 

En esta interfaz no incluimos informacion sobre la recompensa acumu- 
lada que posee el examinado. El hecho de saber como va uno en la prueba. 



''Otra posibilidad hubiera sido utilizar simbolos linguisticos para representar a los agen- 
tes. Esta aproximacion podria haber desigualado las condiciones del test a favor de los 
que conocieran estos simbolos, fallando al tratar de utilizar una interfaz lo menos sesgada 
posible. Por este motivo decidimos utilizar simbolos lo mas neutros posibles. 
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Figura 4.6: Una captura de la interfaz para humanos. Podemos ver una 
situacion donde el agente acaba de recibir una recompensa positiva, mostrado 
a traves del circulo verde con una flecha hacia arriba. La imagen tambien 
muestra que el agente esta situado en la celda 3, y Evil y Good se encuentran 
en las celdas 2 y 3 respectivamente. El agente se puede mantener en la celda 
3 y tambien puede moverse a la celda 1. La celda 3 esta destacada ya que es 
una celda accesible y el cursor se encuentra encima de ella. 

ademas de recibir informacion inmediata sobre el ultimo ensayo, podria in- 
fluir en cierta medida en la motivacion o en la disposicion con la que se 
enfrenta al siguiente ejercicio. Esto podria afectar de forma diferencial en 
funcion de cada persona, como por ejemplo en funcion de su "personalidad", 
y no directamente en la inteligencia. Por ejemplo, el hecho de saber que se 
ha fallado muchas veces podria bloquear a algunos y generar aun peores re- 
sultados, mientras que a otros podria motivarlos para conseguir recuperarse. 
Tambien es posible que, para algunos, conseguir una recompensa acumulada 
muy elevada reduzca su motivacion en la tarea. 

4.6. Agente de lA de referencia: Q-learning 

Ya que este sistema de evaluacion se ha construido utilizando la configu- 
racion de aprendizaje por refuerzo (RL), lo natural es comenzar evaluando 
algoritmos de RL. De hecho, como vimos en el Capitulo [2] RL es una confi- 
guracion lo suficientemente apropiada y general como para definir y analizar 
agentes de aprendizaje, los cuales interactuan con un entorno a traves del 
uso de observaciones, acciones y recompensas. 

Debido a la vasta cantidad de literatura que existe en algoritmos de RL, 
nos encontramos con un dificil problema al intentar obtener un algoritmo 
'representativo' al que empezar a evaluar. De acuerdo con |46j . los tres al- 
goritmos mas influyentes en RL son Temporal Difference (TD) learning |36| . 
Actor-Critics adaptable p] y Q-learning |44j. 
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Para probar la clase de entornos, hemos elegido a Q-learning como repre- 
sentante de los algoritmos de RL para evaluarlo. La razon de elegir Q-learning 
ha sido deliberada, ya que primero queriamos evaluar un algoritmo que fuera 
estandar y, mas especialmente, porque (por el momento) no queremos eva- 
luar algoritmos muy especializados en entornos ergodicos o algoritmos con 
mejores propiedades computacionales (p. ej. delayed Q-learning [35] hubiera 
sido una mejor eleccion si hubieramos querido evaluar tambien la velocidad). 
Hemos utilizado una implementacion estandar de Q-learning, tal y como se 



explica en |44| y |37) . Vease la Seccion 2.1.3 para una explicacion mas deta- 
llada de como funciona esta tecnica. 

Basicamente, Q-learning es una funcion de agente que decide, a partir 
del estado actual, cual es la accion que debe realizar para conseguir la ma- 
yor recompensa posible. Sin embargo, las observaciones que le proporciona el 
entorno en la aproximacion implementada, resultan inapropiadas para repre- 
sentar los estados, por lo que hemos tenido que especificar una descripcion de 
los estados mas clara y concisa. Podemos ver un ejemplo de esta descripcion 



en el Ejemplo |4.6.1 



Ejemplo 4.6.1 

Un ejemplo de una descripcion para un estado en la matriz Q es la cadena 
'101|000|010'. 

Cada secuencia de y 1 entre | representa el contenido de una celda, por 
lo que esta descripcion representa a un espacio con tres celdas. Dentro de 
cada celda, los numeros y 1 representan la existencia o no de los objetos 
dentro de esa celda (con las posiciones de los objetos constantes entre celdas) 
del siguiente modo: siendo '101' el contenido de la primera celda, significa 
que '1' el primer objeto se encuentra dentro de la celda, '0' el segundo objeto 
no se encuentra en la celda y '1' el tercer objeto se encuentra en la celda. 
Asi tenemos que tanto el primer como el tercero se encuentran dentro de 
la primera celda. Podemos ver que la siguiente celda (con descripcion '000') 
no contiene ningun objeto. Finalmente, en la ultima celda (con descripcion 
'010') se encuentra el segundo objeto. 

Para seguir un orden, hemos establecido que el primer objeto siempre sera 
el agente Good, el segundo objeto sera el agente Evil y el tercer objeto sera 
el agente que se esta evaluando vr (siendo en este caso el propio Q-learning)[^ 



^Notese que aunque hayamos establecido este orden a priori, Q-learning no se aprovecha 
de esta informacion para adivinar que posicion ocupa cada agente. Esta descripcion se ha 
utilizado tinicamente como representacion del estado para la matriz Q sin influenciar 
directamente en el comportamiento del agente. 
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Capitulo 5 

Evaluacion de un algoritmo de 
lA 



En este capitulo vamos a probar si la clase de entornos disenada ofrece 
resultados coherentes al evaluar algoritmos de lA. En concrete evaluamos 
la tecnica de aprendizaje per refuerzo conocida como Q-learning visto en el 
Capitulo [2]e implementado en la herramienta de evaluacion, tal como hemos 
explicado en el capitulo anterior. 

La evaluacion de Q-learning en este test de inteligencia general nos pro- 
porciona algunos puntos de vista interesantes sobre como podrian evaluarse 
los algoritmos de RL (con un test de inteligencia) y tambien sobre la viabi- 
lidad de estos tests como test de inteligencia general para la lA. 

5.1. Configuracion de los experimentos 

Para estos experimentos vamos a evaluar Q-learning a traves de un con- 
junto de entornos. Con respecto a las caracteristicas que tendran estos entor- 
nos, de las opciones descritas en capitulos anteriores, para este experimento 
hemos tomado algunas decisiones: 

■ A pesar de que |13| sugiere que las interfaces sean parcialmente ob- 
servables, aqui hemos hecho que sean completamente observables, de 
modo que los agentes seran capaces de ver todas las celdas con su con- 
tenido y las acciones disponibles desde la celda en la que se encuentren 
y a que celdas llevara cada accion. 

■ Los agentes Good y Evil siguen un mismo patron de comport amiento 
en cada ejercicio. Este patron se recalcula para cada nuevo ejercicio. 

■ Las recompensas de las celdas se consumen despues de actualizarlas y 
se mantienen solo durante una iteracion, pasada la iteracion se estable- 
ce a 0. Esta configuracion fuerza a que los agentes solamente obtengan 
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recompensas cuando coincidan con Good o Evil en una celda. Notese 
que, en esta configuracion, los agentes deben adivinar cual sera la si- 
guiente celda en la que se colocara Good para poder obtener buenos 
result ados. 

■ Ya que en estos experimentos no queremos evaluar caracteristicas es- 
pecializadas (como, por ejemplo, la velocidad), cada ejercicio tiene un 
niimero maximo de interacciones durante las que los agentes interac- 
tuan con el entorno. Hemos establecido un numero de interacciones 
lo suficientemente grande como para poder apreciar a que resultados 
convergen los agentes. 

5.2. Agentes evaluados 

Q-learning tiene dos parametros clasicos que debemos establecer: learning 
rate (a) y discount factor (7). Los parametros para Q-learning son a = 0,05, 
7 = 0,35. Los elementos en la matriz Q se establecen inicialmente a 2 (las 
recompensas tienen un rango entre — 1 y 1, pero estan normalizados entre y 
2 para que la matriz Q sea siempre positiva). Los parametros se han elegido 
para ser optimos en este conjunto de experimentos probando 20 valores con- 
secutivos para a y 7 entre y 1. Estas 20 x 20 = 400 combinaciones se han 
evaluado en 1.000 sesiones cada una utilizando entornos aleatorios de entre 
los tipos de entornos utilizados en este capitulo, por lo que estos parametros 
han sido escogidos de modo que Q-learning obtenga los mejores resultados 
posibles en estos experimentos. 

El estado de la matriz Q se describe a partir del contenido de las celdas 
(incluyendo la localizacion de los agentes) de la copia del espacio proporcio- 
nado en las observaciones. En la Seccion [4.6| podemos ver como se describen 
los est ados. 

Para tener unos resultados de referenda, hemos implementado varios 
agentes distintos contra los que comparar los resultados de Q-learning. Es- 
tos agentes seguiran siempre el mismo comportamiento sin importar las re- 
compensas que obtengan, por lo que, en principio, sus resultados deberan 
converger rapidamente. Veamos estos agentes: 

■ Aleatorio: Un agente aleatorio es, simplemente, un agente que elige 
de forma aleatoria de entre sus acciones disponibles utilizando una 
distribucion uniforme. 

■ Seguidor trivial: Este agente observa las celdas accesibles para ver si 
Good esta en alguna de ellas. Si lo encuentra, entonces se mueve a esa 
celda (o se mantiene en la misma celda si Good compartia celda con 
el). De lo contrario, elige aleatoriamente de entre las celdas accesibles 
pero tratando de evitar colocarse en la celda en donde se encuentre 
Evil. 
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■ Oraculo: Este agente puede ver de antemano las celdas a donde Good y 
Evil pretenden moverse en la siguiente interaccion y, si Good pretende 
moverse a una celda directamente accesible por el agente, entonces su 
movimiento sera moverse a esa celda. De lo contrario, buscara de entre 
todas sus celdas accesibles cual de todas ellas le ofrecera (en la siguien- 
te interaccion) la mayor recompenssj^ Aunque el Oraculo tenga esta 
'ventaja' sobre el resto de agentes, no es un agente optimo, ya que solo 
actua en funcion del siguiente movimiento, lo cual no siempre resulta 
una buena politica. Ademas, debido a que el entorno es estocastico, no 
es capaz de predecir con precision en que celda acabara Good cuando 
coincida con Evil en la misma celda y, por lo tanto, es posible que 
pierda su rastro en estas situaciones. 



5.3. Un ejemplo simple 

Primero veamos los resultados de la evaluacion de los agentes previos en 



un unico entorno. El espacio es el de la Figura 5.1 y utilizamos el siguiente 
patron de movimientos para Good y Evil: 203210200. Se ha establecido el 
numero de interacciones a 10.000. 



C3 




C4 


33 


32 y '='1 






Figura 5.1: Un espacio con 8 celdas y 4 acciones (oq, oi, 02) Os)- No se muestra 
la accion reflexiva cq. 

En la Figura |5.2| podemos ver la media de las recompensas tras cada 
interaccion para los distintos tipos de agentes (cada agente ha sido evaluado 
individualmente, pero vemos todos los resultados en el mismo grafico). Esta 
figura muestra que la recompensa media inicialmente tiene muchas fluctua- 
ciones para los cuatro tipos de agentes. El agente aleatorio pronto converge a 
su recompensa media esperada, la cual es 0. El seguidor trivial solo es capaz 
de obtener una puntuacion cercana a 0,5. En este entorno y con este patron, 
seguir a Good es una buena politica, pero solo hasta cierto punto. El oraculo 
converge a un valor alrededor de 0,83. Como se menciona anteriormente, el 

'^Notese que los demas agentes no pueden ver las recompensas que se encuentran dis- 
persas por el entorno, ya que no forman parte de las observaciones. 
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oraculo es casi optimo, y en muchos entornos no alcanzara el valor de 1, pero 
si un buen valor. Q-learning result a que converge de forma muy lent a hacia 
un valor alrededor de 0,625. Aunque muy lentamente, en este caso podemos 
ver como al final supera al seguidor trivial. 
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Figura 5.2: Resultados para un entorno simple en el espacio de 8 celdas de la 



Figura 5.1 y con la secuencia de acciones que siguen Good y Evil: 203210200. 



Sin embargo, estos resultados solo se han dado para un entorno en par- 
ticular, por lo que no podemos obtener ninguna conclusion liable. En las 
siguientes secciones realizamos una bateria de experimentos que intentan ob- 
tener algunas conclusiones sobre el comportamiento general de estos agentes. 

5.4. Experimentos sobre entornos generados 

En esta seccion mantenemos la configuracion y los parametros anterior- 
mente descritos, pero ahora promediamos los resultados entre varios entor- 
nos generados aleatoriamente. En particular hemos elegido 100 entornos de 
3 celdas, 100 entornos de 6 celdas y 100 entornos de 9 celdas, los cuales nos 
permiten interpolar los resultados para un rango de celdas entre 3 y 9. Cada 
entorno tiene una generacion aleatoria de la topologia del espacio y una pro- 
babilidad aleatoria de parada Pstop (utilizando una distribucion geometrica) 
que controla el tamano del patron de Good y Evil, el cual se establece a 
1/100. 



Se pueden ver los resultados en la Figura 5.3 A partir de estas grafi- 
cas obtenemos una idea general, la cual es consistente con el ejemplo simple 
visto en la seccion anterior. Ahora no vemos fluctuaciones, ya que estos son 
resultados promediados a partir de cada uno de los 100 experimentos. Pode- 
mos ver que el tamafio del espacio no afecta mucho en esta configuracion, ya 
que, una vez se ha establecido contacto con Good, la politica es seguirlo (sin 
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Figura 5.3: Resultados para 100 entornos utilizando la configuracion inicial. 
Arriba-Izquierda: 3 celdas. Arriba-Derecha: 6 celdas. Abajo: 9 celdas. 

mucho exito para el seguidor trivial y de manera muy exitosa para el oracu- 
lo). El (relativamente) mal comportamiento para el seguidor trivial en los 
entornos con 3 celdas, se explica porque en un espacio pequefio, existe una 
mayor probabilidad de que coincida con Evil en la misma celda. Q-learning 
es capaz de sobrepasar al seguidor trivial (tomando ventaja del patron de 
Good y Evil) pero solo despues de una lenta convergencia, la cual es mas 
lenta conforme va creciendo el numero de celdas (como era de esperar). 

Ahora analizamos el efecto de la complejidad. En la Figura [5]4j vemos los 
resultados de las recompensas de los cuatro algoritmos tras 10.000 iteraciones 
comparados con la 'complejidad' del entorno. Para aproximar esta comple- 
jidad, utilizamos el tamano de la compresion de la descripcion del espacio 
(la cual obviamente depende del numero de celdas y de acciones), denotado 
por S, y la descripcion del patron para Good y Evil, denotado por P. Mas 
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formalmente, dado un entorno, aproximamos su complejidad (Kolmogorov) , 
denotado por X"'^^'^"^, como sigue: 



j^approx ^ LZ{concat{S,P)) X |P| 



Por ejemplo, si para describir el espacio de la Figura 5.1 utilizamos 

la cadena S = "l2+3 I 12+++++3 I 1-2 3++ I l 2++++++3- I 

12+3++++++ I 1 23 I 1++++++2 3++ I 1 2+++3+" y el patron 

para Good y Evil se describe como P = "203210200", concatenamos ambas 
cadenas (tamafio total 119 caracteres) y comprimimos la cadena resultan- 
te (utilizamos el metodo 'gzip' de la funcion memCompress en R, una im- 
plementacion de la codificacion Lempel-Ziv dentro del proyecto GNU). La 
longitud de la cadena comprimida en este caso es de 60. 




Figura 5.4: Resultados tras 10.000 iteraciones comparadas con respecto a la 
complejidad del entorno. Izquierda: 100 entornos con 9 celdas. Derecha: 300 
entornos con (3, 6, 9) celdas. La regresion lineal esta formada a partir de los 
resultados de Q-learning. 

Podemos ver que tanto al agente aleatorio, al oraculo y al seguidor trivial 
apenas les afecta la complejidad (como era de esperar en esta configuracion) . 
Por el contrario, Q-learning muestra un decrecimiento significativo en su 
rendimiento en cuanto la complejidacj^se va incrementando. En cada grafico 
mostramos un modelo de regresion lineal estandar en funcion de los datos 
de Q-learning, donde podemos apreciar mejor este decrecimiento. 

^Notese que la complejidad no es una medida del numero de celdas, sino una aproxi- 
macion a la complejidad Kolmogorov del entorno. 
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5.5. Experimentos sobre entornos 'sociales' 



Hemos realizado otros experimentos donde incluimos a todos los agentes 
al mismo tiempo en el entorno, el objetivo es ver si pueden obtener alguna 
ventaja a partir de los movimientos de los otros agentes, o, por el contra- 
rio, esto incrementa la cantidad de informacion a procesar y se reduce el 
rendimiento de los agentes. 

Comparamos este escenario 'social' utilizando la misma configuracion que 
en la Seccion |5.4| Incluimos todos los agentes a la vez, pero las recompen- 
sas no se dividen entre los agentes. En otras palabras, si la recompensa de 
una celda es de 0, 5 y dos agentes se situan en esa celda, entonces se les 
proporciona a ambos la recompensa de 0,5. Esto nos permite analizar si 
el rendimiento en estos entornos (en donde existen mas agentes al mismo 
tiempo) es beneficioso o no para cada tipo de agente. 
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Figura 5.5: Los resultados para 100 entornos con comportamiento social. 
Arriba-Izquierda: 3 celdas. Arriba-Derecha: 6 celdas. Abajo: 9 celdas. 
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En la Figura 5.5 podemos ver que los agentes oraculo y seguidor trivial 
no resultan afectados por este comportamiento social, sin embargo el rendi- 
miento de Q-learning se reduce. La razon es que el tamano de la observacion 
(y por lo tanto de la matriz Q) se incrementa, ya que la informacion de 
las posiciones de los demas agentes hace que los entornos sean mucho mas 
complejos para el Q-learning (mientras que en realidad no lo son tanto). Se 
puede ver la diferencia si comparamos las Figuras 5.3 y 5.5 Q-learning no 
se aprovecha del comportamiento de los demas agentes para mejorar el suyo, 
sino todo lo contrario, obtiene peores resultados. 




Figura 5.6: Resultados tras 10.000 iteraciones comparadas con respecto a la 
complejidad del entorno con comportamiento 'social'. Izquierda: 100 entornos 
con 9 celdas. Derecha: 300 entornos con (3, 6, 9) celdas. La regresion lineal 
esta formada a partir de los resultados de Q-learning. 

La Figura |5.6| muestra en este caso la evolucion de los algoritmos con 
respecto a la complejidad en los entornos 'sociales'. De nuevo, el grafico 
muestra una relacion inversa entre la complejidad y el rendimiento de Q- 
learning, siendo aun mas acusada la pendiente de la regresion lineal. Sin 
embargo, esta relacion de la complejidad no es tan directa, ya que no se ha 
tenido en cuenta la complejidad del resto de agentes en la medida. 



5.6. Conclusiones 

Los experimentos mostrados en este capitulo muestran que es posible 
utilizar esta implementacion del test de inteligencia, utilizando la clase de 
entornos A, para evaluar sistemas de inteligencia artificial. Aunque para la 
implementacion se ban utilizado varias aproximaciones y simplificaciones, 
mostramos que la teoria funciona en capturar la esencia de la complejidad 
de las tareas independientemente de la aplicacion o sistema de lA que se 
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vaya a evaluar. 

El objctivo dc cstos cxperimentos no era el de analizar las mas que cono- 
cidas propiedades de Q-learning (tal como la convergencia, sobrecarga, etc.), 
ni tampoco designar un algoritmo 'ganador'. El objetivo era mostrar que 
esta aproximacion top-down para evaluar agentes de lA puede funcionar en 
la practica. 

Hemos utilizado esta implement acion del test de inteligencia para evaluar 
a Q-learning como un algoritmo estandar tipico en RL, y hemos podido ver 
que existe una relacion (inversa) entre el rendimiento de Q-learning y la 
complejidad de los entornos y como este test es capaz de relacionarlo. 
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Capitulo 6 

Evaluacion de distintos 
sistemas inteligentes 



Tras haber comprobado (en el capitulo anterior) que estos tests pueden 
utilizarse para evaluar sistemas de inteligencia artificial, el siguiente paso a 
seguir es comprobar si los resultados obtenidos por distintos tipos de sistemas 
inteligentes reflejan realmente la diferencia esperada. 

Para realizar este experimento hemos elegido dos tipos de sistemas dis- 
tintos, los hemos evaluado y hemos comparado sus resultados. Por un lado, 
hemos elegido el mismo 'representante estandar' de los algoritmos de lA que 
en el capitulo anterior (Q-learning) y, por otro lado, a un facilmente accesible 
sistema biologico (Homo sapiens). 



6.1. Configuracion de los experimentos 

Para cada test, hemos utilizado una secuencia de 7 entornos, cada uno 
con un numero de celdas (ric) de 3 a 9. El espacio para cada ejercicio se 
genera al azar (respetando el numero de celdas para cada ejercicio) durante 
el transcurso de los tests, al igual que el patron de comportamiento que 
seguiran Good y Evil, cuyo tamaho se calcula en proporcion (en promedio) al 
numero de celdas, utilizando Pstop = l/'^c- En cada entorno, vamos a permitir 
10 X (ric — 1) inter acciones, por lo que los agentes tienen la oportunidad de 
detectar cualquier patron en el entorno (periodo de exploracion) y tambien 
de tener algunas interacciones mas para explotar sus descubrimientos (dado 
el caso de que realmente se descubra el patron). La limitacion del numero de 
entornos y de interacciones se justifica porque los tests estan pensados para 
aplicarse a agentes biologicos en un periodo razonable de tiempo (p. ej. 20 
minutos), estimando unos 4 segundos para cada accion. Q-learning ha sido 
evaluado en una bateria de tests, mientras que cada humano ha sido evaluado 



en un unico test. La Tabla 6.1 resume las decisiones que hemos tomado para 
el test. 
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Entorno # 


No. celdas (ric) 


No. interacciones (m) 


Pstop 


1 


3 


20 


1/3 


2 


4 


30 


1/4 


3 


5 


40 


1/5 


4 


6 


50 


1/6 


5 


7 


60 


1/7 


6 


8 


70 


1/8 


7 


9 


80 


1/9 


TOTAL 




350 





Tabla 6.1: Configuracion para los 7 entornos que componen el test. 

Para que los resultados obtenidos fueran mas comparables, hemos hecho 
que ambos tipos de agentes realizasen exactamente los mismos ejercicios, eva- 
luandolos simultaneamente en los mismos entornos (siempre con los mismos 
movimientos para Good y Evil). Sin embargo, hemos evitado que pudieran 
verse durante su evaluacion, de modo que los hemos evaluado por separa- 
do. Esto es debido a que si ambos agentes hubieran coincidido en el mismo 
ejercicio hubieran sido conscientes de la existencia del otro agente, lo cual 
hubiera introducido una mayor (e innecesaria) complejidad. 

Con respecto al resto de caracteristicas, hemos utilizado las mismas que 
en el capitulo anterior (vease Pagina [64| . De forma resumida: utilizamos 
interfaces completamente observables (omitiendo al resto de agentes evalua- 
dos), las recompensas se consumen despues de actualizarlas y se mantienen 
unicamente durante una interaccion. 

6.2. Agentes evaluados y sus interfaces 

Ahora vamos a introducir a los agentes que vamos a evaluar, Q-learning 
y el Homo sapiens, asi' como las interfaces que ha utilizado cada uno. 

6.2.1. Un agente de lA: Q-learning 

Hemos elegido a Q-learning como 'representante' de los algoritmos de lA 
para estos experimentos. 

Para la descripcion del estado de Q-learning, hemos utilizado la descrip- 
cion del contenido de las celdas. Los parametros elegidos son los mismos que 
en el capitulo anterior: a = 0, 05 {learning rate) y 7 = 0, 35 {discount factor). 
Los elementos en la matriz Q se establecen inicialmente a 2 (las recompensas 
tienen un rango entre — 1 y 1, pero estan normalizados entre y 2 para que 
la matriz Q sea siempre positiva). Los parametros se han elegido probando 
20 valores consecutivos para a y 7 entre y 1. Estas 20 x 20 400 com- 
binaciones se han evaluado en 1.000 sesiones cada uno utilizando entornos 
aleatorios de diferentes tipos y complejidades. Por supuesto, esta eleccion es 
beneficiosa para el rendimiento de Q-learning en los tests. 
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Para la interfaz de Q-learning se le proporciona una copia del espacio 
(completamente observable), incluyendo la localizacion de los agentes dentro 
de las celdas. A partir de esta copia, se construye la descripcion del estado 
para la matriz Q. Podemos ver un ejemplo de esta descripcion en el Ejem- 



plo 4.6.1 de la Pagina 62 



6.2.2. Un agente biologico: Homo sapiens 

Hemos elegido al Homo sapiens por razones obvias, en especial porque 
generalmente se asume que es la especie mas inteligente del planeta. Hemos 
cogido 20 liumanos de un departamento universitario (estudiantes de docto- 
rado, personal de investigacion y profesores) con edades comprendidas entre 
20 y 50 anos. Esta es una muestra en donde se espera que sus liabilidades 
intelectuales sean en promedio mejores que la de la poblacion general, por 
lo que tendremos esto en cuenta durante la evaluacion de los resultados. 

Para la interfaz, hemos utilizado el modo de uso anteriormente descrito 



en la Seccion 4.5.3 Podemos ver una captura de esta interfaz en la Figura 6.1 





Figura 6.1: Una captura de la interfaz para humanos. El agente acaba de 
recibir una recompensa positiva, mostrado a traves del circulo verde con una 
flecha hacia arriba. La imagen tambien muestra que el agente esta situado en 
la celda 3, y Good y Evil se encuentran en las celdas 3 y 2 respectivamente. 
El agente se puede mantener en la celda 3 y tambien puede moverse a la 
celda 1. La celda 3 esta destacada ya que es una celda accesible y el cursor 
se encuentra encima de ella. 

En estos test se ban tomado varias decisiones sobre la interfaz: (1) Para 
cada numero de ejercicio se utiliza el mismo orden de colores, (2) los simbolos 
para cada agente (al igual que los colores de las celdas) se mantienen para 
cada numero de ejercicio y (3) cada ejercicio tiene pre-asignados los simbolos 
que se utilizan para Good y Evil. Estas decisiones hacen que la interfaz sea 
lo mas homogenea posible y evitan posibles sesgos entre los humanos. 
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Al principio del test al sujeto se le presentan las instrucciones, las cuales 
estrictamente contienen lo que el usuario debe conocer, entre ellas: (1) que el 
test esta compuesto de una serie de ejercicios interactivos, (2) la existencia de 
recompensas y su objetivo de conseguir el maximo numero de recompensas 
positivas, (3) que no se mide la velocidad, por lo que actuar rapidamente solo 
conllevara (en general) malos resultados y (4) la existencia de un agente que 



lo representa y su simbolo. Podemos ver estas instrucciones en la Figura 6.2 



INSTRUCTIONS: 

This test will take about 25 minutes. 

Please read these instructions carefully before taking the test. 

• Speed Is not relevant, so take your time to do the best you can for every move. 

• The test is composed of several Interactive exercises. 

• Each exercise will be composed of a series of steps. The number of steps Is fixed beforehand, so 
acting rashly can only make you score poorly. 

• You are represented by a circle which Is located in a cell. You can move to other cells by clicking on 
the accessible cells. You can also remain on the same cell by clicking on it. 

• .After each movement you will receive a reward. Rewards can be positive, neutral or negative. 

• Your goal Is to obtain as more positive rewards as possible and as few negative rewards as possible. 

Oyou 



o 

Q 



Posilwe reward 



Neutral reward 



Negative reward 



Figura 6.2: Instrucciones mostradas a los seres humanos antes de comenzar 
su evaluacion. 



6.3. Resultados del experimento 

Como hemos indicado anteriormente, se han realizado 20 tests (con 7 



ejercicios en cada uno) con la configuracion mostrada en la Tabla 6.1 ad- 
ministrado cada test a un humano distinto mientras que Q-learning se ha 
evaluado en todos ellos. 



La Figura 6.3 muestra los histogramas y las densidades de probabilidad 
(estimados con el paquete R). La primera observacion que podemos ver a 
partir de este conjunto de pares de resultados son las medias. Mientras que 
Q-learning tiene una media global de 0,259, los humanos muestran una media 
de 0,237. Las desviaciones estandares son 0,122 y 0,150 respectivamente. 
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Q-learning 



Human 




-1.0 -0.5 0.0 0.5 1.0 -1.0 -0.5 0.0 0.5 1.0 

Rewards Rewards 



Figura 6.3: Histogramas de los 20 x 7 = 140 ejercicios para Q-learning (iz- 
quierda) y humanos (derecha). Las lineas muestran las probabilidades de 
densidad. 



Ambas imagenes son bastante parecidas (aparte de la mayor variacion de los 
humanos) y no se percibe ninguna diferencia especial. 

Para ver los resultados con mayor detalle (en terminos de los ejercicios), 
la Figura |6.4| (izquierda) muestra los resultados agregando por ejercicio (un 
ejercicio para cada numero de celdas entre 3 y 9, en total 7 ejercicios por 
test). Esta figura muestra la media, la mediana y la dispersion tanto de 
Q-learning como de los humanos para cada ejercicio. Si miramos en los dia- 
gramas de cajas para cada tamafio del espacio, podemos ver que tampoco 
existe una diferencia significativa en terminos de como funcionan Q-learning 
y los humanos en cada uno de los siete ejercicios. Mientras las medias son 
alrededor de 0,2 y 0,3, las varianzas son mas pequefias cuanto mas grande es 
el numero de celdas. Esto se debe a que en los ejercicios con mayor cantidad 



de celdas se dispone de un mayor numero de iteraciones (vease la Tabla 6.1 ). 

Con los resultados obtenidos, hemos aplicado un ANOVA repetido de 
dos variantes (two-way repeated ANOVA): agente x numero de celdas. El 
ANOVA realizado no muestra ningun efecto estadistico significativo para 
el agente (-^1,19 = 0,461, P = 0,506) ni tampoco para el numero de celdas 
(-^6,114 = 0) 401, P = 0, 877). Tampoco se ha encontrado ningun efecto en las 
interacciones estadisticamente significante (-F6,ii4 = 0,693, P = 0,656). 

Finalmente, ya que el numero de celdas no es una medida suficiente de la 
complejidad, hemos explorado la relacion con la complejidad de los entornos. 
Para aproximar esta complejidad, de manera similar al capitulo anterior he- 
mos utilizado el tamaho del patron comprimido para Good y Evil, denotado 
como P. Mas formalmente, dado un entorno, calculamos una aproximaci6i:j^ 

'^Esta es una aproximacion claramente tosca de la complejidad Kolmogorov (o incluso de 
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Figura 6.4: Izquierda: Diagrama de cajas (con bigotes) para los siete ejerci- 
cios dependiendo del agente. Las medianas se muestran en la caja como un 
pequeno segmento negro, mientras que las medias se conectan entre ellas por 
una linea continua para Q-learning y una linea discontinua para los humanos. 
Derecha: Los resultados medios de las recompensas para los 20 x 7 x 2 = 280 
ejercicios utilizando K^pw°^ como medida de la complejidad. Tambien se 
muestra una regresion lineal para ambos tipos de agentes. 

a su complejidad (Kolmogorov), denotado K"'PP^°^ como sigue: 

j^approx ^ LZ{P) 

Por ejemplo, si un patron para Good y Evil se describe con la cade- 
na P = "20122220022222200222222002", comprimimos la cadena (utilizando la 
funcion memC empress de R, con una implement acion de Lempel-Ziv dentro 
del proyecto GNU). La longitud de esta cadena comprimida es 19. 

La Figura |6.4| (derecha) muestra cada uno de los 20 x 7 = 140 ejercicios 
para cada tipo de agente. De nuevo vemos una mayor dispersion para los 
humanos que para Q-learning, lo cual es debido a que los 20 humanos son 
distintos, mientras que Q-learning es exactamente el mismo algoritmo para 
cada uno de los 20 tests. Si realizamos una regresion lineal para cada tipo 
de agente, vemos que la pendiente para los humanos es menos pronunciada 
que la de Q-learning. 

Hemos calculado el coeficiente de correlacion de Pearson entre la comple- 
jidad y las recompensas. Ahora encontramos una correlacion estadisticamen- 
te significativa tanto para los humanos (r = —0, 257, n = 140, P = 0, 001) 

una variante computable como el Kt de Levin). Una descripcion de un entorno muy largo 
(e incomprensible) puede tener un comportamiento muy similar (o incluso igual) que un 
entorno mucho mas simple durante un largo numero de iteraciones. Una alternativa seria 
evaluar la complejidad Kolmogorov del ejercicio. Algunas de estas cuestiones se discuten 
en [H]. 
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como para Q-learning (r = —0,444, n = 140, P < 0,001). Tambien anali- 
zamos estas correlaciones por el numero de celdas, como se muestra en la 



Tabla 6.2 Esta tabla muestra el coeficiente de correlacion de Pearson y los 
niveles de asociacion significativos entre "complejidad" y "recompensa" por 
"numero de celdas" para cada agente, todos con n = 20. 



Agente 


3 celdas 


4 celdas 


5 celdas 


6 celdas 


7 celdas 


8 celdas 


9 celdas 


Humano 


-.474 (.017) 


-.134 (.286) 


-.367 (.056) 


-.515 (.010) 


-.282 (.114) 


-.189 (.213) 


-.146 (.270) 


Q-learning 


-.612 (.002) 


-.538 (.008) 


-.526 (.009) 


-.403 (.039) 


-.442 (.026) 


-.387 (.046) 


-.465 (.019) 



Tabla 6.2: Coeficiente de correlacion de Pearson y los valores de p (entre 
parentesis) entre "complejidad" y "recompensa" por "numero de celdas". 

Podemos ver que las correlaciones son mas fuertes y siempre significati- 
vas para Q-learning, mientras que son mas leves (y no siempre significativas) 
para los liumanos. Esto podria deberse a que los humanos no son 'resetea- 
dos' entre ejercicios. En general, necesitarfamos mas datos (mas tests y mas 
interacciones para cada ejercicio) para confirmar o refutar esta hipotesis. 



6.4. Impresiones del Homo sapiens 

Tras el test, se les pidio a los liumanos rellenar un cuestionario para obte- 
ner informacion con respecto a ciertos aspectos del test, como sus emociones 
(p. ej. si se sentfan motivados para realizar el test), la usabilidad del interfaz 
y las estrategias que siguieron durante el test (p. ej. como actuaban para 
conseguir maximizar sus recompensas). 

Entre sus observaciones podemos destacar que la mayorfa lo encontro 
motivante, por lo que desempefiaban un rendimiento constante durante todo 
el test. Sin embargo, reconocen que el test (tal y como se planeaba) era algo 
diffcil de realizar y de ahi justifican (en general) sus bajos resultados. 

La mayorfa de los evaluados reconocieron no comprender la mecanica de 
los ejercicios (agentes Good y Evil que proporcionaban las recompensas y 
que segman un mismo patron de movimientos) hasta la mitad del test. Esta 
es una explicacion mas que justifica los bajos resultados y la amplia varianza 



en los primeros ejercicios de la Figura 6.4 (izquierda), ya que (mayormente) 



su estrategia se centraba en realizar acciones al azar hasta comprender lo 
que debfan hacer (siendo aun mejores que el valor esperado para un agente 
aleatorio (0), demostrando que sus acciones comenzaban a condicionarse por 
las recompensas positivas). 

La amplia mayorfa descubrio la existencia de los agentes Good y Evil, y 
tambien descubrieron que segufan cada uno un patron de movimientos, los 
cuales consideraron bastante diffciles de memorizar (hay que tener en cuen- 
ta que (segun sus propias impresiones) no descubrieron la mecanica de los 
ejercicios hasta la mitad del test, en donde (en general) ya comenzaban a 
complicarse los patrones). Ningun encuestado descubrio ninguna otra regla 
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del comportamiento de los entornos (entorno estocastico, mismo comporta- 
miento para Good y Evil, . . . ) a excepcion de las ya mencionadas. 

Con respecto a la usabilidad del interfaz, la mayoria se puso de acuerdo 
en que su diseiio era el adecuado y que ofrecia la informacion necesaria sin 
la existencia de ruido que molestase para realizar el test. La unica excepcion 
fueron los colores de las celdas que, segun sus comentarios, distrajeron bas- 
tante a la hora de descifrar el motivo por el cual se obtenian recompensas 
positivas. Quizas eliminando esta complejidad anadida los humanos hubieran 
obtenido mejores puntuaciones. 

6.5. Conclusiones 

A partir de este experimento hemos obtenido muchas conclusiones in- 
teresantes: 

■ Es posible hacer el mismo test tanto a maquinas como a humanos sin 
necesidad de que sea antropomorfico. El test es exactamente el mismo 
para ambos y se deriva a partir de conceptos computacionales. Simple- 
mente hemos ajustado la interfaz (como se muestran las recompensas, 
acciones y observaciones) dependiendo del tipo de sujeto. 

■ Los humanos no son mejores que Q-learning en este test, incluso aunque 
el test (a pesar de varias simplificaciones) esta basado en una distribu- 
cion universal de entornos sobre una clase de entornos muy general. De 
hecho, creemos que el uso de una distribucion universal es precisamen- 
te una de las razones por las que los humanos no son especialmente 
buenos en este test. 

■ Ya que estos resultados son similares a |33| (el cual muestra que las 
maquinas pueden obtener buenos resultados en IQ tests), nos encon- 
tramos con una evidencia adicional de que un test que es valido para 
seres humanos o para maquinas por separado podria no ser util para 
distinguirlos o para situarlos en una misma escala y, por lo tanto, no 
pueda servir como test de inteligencia universal. 

Estos tests pretenden ser lo mas generales posibles. Es verdad que los 
autores han realizado muchas simplificaciones a la clase de entornos, como 
por ejemplo que Good y Evil no reaccionan al entorno (simplemente ejecutan 
una secuencia ciclica de acciones siguiendo un patron), y tambien hemos uti- 
lizado una aproximacion muy simple para la complejidad en lugar de mejores 
aproximaciones a la complejidad Kolmogorov o a la Kt de Levin. Ademas, 
los humanos no se 'resetean' (ni tampoco se pueden) entre ejercicios y la 
muestra utilizada tiene unas habilidades intelectuales (en principio) superio- 
res en promedio al de la poblacion general. A pesar de todos estos problemas, 
los cuales (la mayoria) dan mas merito a Q-learning, pensamos (aunque no 
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podemos concluirlo) que los tests no son lo suficientemente generales. Q- 
learning no es el mejor algoritmo de lA disponible hoy en dia (de hecho no 
consideramos que Q-learning sea muy inteligente) , por lo que los resultados 
no son representativos de las diferencias reales de inteligencia entre los huma- 
nos y Q-learning. Esta perdida de generalidad puede deberse (parcialmente) 
a las extensas simplificaciones realizadas con respecto a la idea original del 
test anytime y a la clase de entornos. 

Una posibilidad es que quizas el tamafio de nuestra muestra sea dema- 
siado pequefio. Si hubieramos tenido mas entornos con mayor complejidad 
y dejando que los agentes interactuasen mas tiempo en cada uno de ellos, 
quizas veriamos una imagen distinta. Sin embargo, no esta claro que los hu- 
manos puedan escalar mejor en este tipo de ejercicios, especialmente si no se 
pueden reutilizar partes de ejercicios anteriores en los ejercicios nuevos. Pri- 
mero, algunos de los patrones que han aparecido en muchos de los ejercicios 
complejos, han sido considerados muy diflciles por los humanos. Segundo, 
Q-learning requiere muchas interacciones para converger, por lo que quizas 
solo se exagerase la diferencia a favor de Q-learning. En cualquier caso, esto 
deberia analizarse con mas experimentos. 

Un problema mas fundamental, y en nuestra opinion mas relevante, es si 
se estan haciendo pruebas en el tipo de entornos equivocado. En concreto, 
nos referimos a la clase de entornos o a la distribucion del entorno. La clase 
de entornos es una clase general que incluye dos agentes simetricos. Good 
y Evil, los cuales estan a cargo de las recompensas. No creemos que esta 
clase de entornos este, en ningun caso, sesgada en contra de los humanos (se 
podria decir lo contrario). En el fondo, es diflcil de responder a la pregunta 
de si un test esta sesgado o no, ya que cualquier simple eleccion implica un 
cierto sesgo. En nuestra opinion, el problema podria estar en la distribucion 
de entornos. Eligiendo una distribucion universal se da mayor probabilidad a 
entornos muy simples con patrones muy simples, pero lo que es mas impor- 
tante, hace que cualquier tipo de interaccion mas 'rica' sea imposible incluso 
en entornos con una alta complejidad Kolmogorov. Por lo que una mejor 
distribucion de entornos (o quizas clase) deberia dar mayor probabilidad a 
la adquisicion incremental de conocimiento, a las capacidades sociales y a 
entornos mas reactivos. 

Una de las cosas que hemos aprendido es que el cambio de distribuciones 
universales desde entornos pasivos (como se propuso originalmente en [6j y 
|10) ) a entornos interactivos (como tambien se sugiere en jlO| y se desarrolla 
completamente en |22| y [23]) se encuentra en la direccion correcta, pero no 
es (por SI sola) la solucion. Esta claro que permite una mayor interpretacion 
natural de la nocion de inteligencia como el rendimiento en un amplio rango 
de entornos, y facilita la aplicacion de tests mas alia de los humanos y las 
maquinas (nihos, chimpances, . . . ), pero hay otros problemas en los que hay 
que centrarse para poder dar una definicion mas apropiada de la inteligencia 
y poder proporcionar un test mas practico. La propuesta de un test adaptati- 
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vo |14| introduce muchas nuevas ideas sobre como crear tests de inteligencia 
mas practices; sustituyendo la distribucioii universal por una distribucion 
adaptativa permitira una mayor convergencia hacia los niveles de compleji- 
dad mas apropiados para los agentes. A partir de estos resultados creemos 
que la prioridad es definir nuevas distribuciones de entornos que puedan dar 
mayor probabilidad a entornos donde la inteligencia pueda mostrar todo su 
potencial (vease, p. ej. fl5j). 



82 



Capitulo 7 

Perspectivas 



Con esta tesis de master, hemos podido observar (con unos experimentos 
iniciales) como los tests desarrollados son validos para evaluar varios tipos de 
sistemas por separado, pero no podemos concluir que (en su estado actual) 
sean apropiados para situar a distintos tipos de sistemas en una misma escala. 
Segiin los resultados obtenidos, no podemos ascgurar de ninguna forma cual 
de los dos sistemas evaluados es el mas intcligente. Sin embargo, sin necesidad 
de realizar ningun test, damos por sentado que el ser humano es bastante 
superior al algoritmo de lA con el que lo hemos comparado. 

Uno de los problemas de este sistema de evaluacion es que, con la distri- 
bucion universal utilizada para generar los entornos, existe una probabilidad 
practicamente nula de que se generen entornos en donde se necesiten de unas 
capacidades cognitivas superiores para conseguir resolverlos. Esto se debe a 
que los entornos mas simples se generan con mayor probabilidad, mientras 
que sera muy improbable que se genere algun entorno mmimamente comple- 
jo. Por ejemplo, si generamos entornos siguiendo esta distribucion, es muy 
dificil que (a partir de un entorno) consigamos obtener alguna informacion 
util que nos ayude en futuros entornos. De igual modo, resulta practicamente 
imposible llegar a generar algun tipo de comportamiento social. El compor- 
tamiento social ha necesitado de muchisimos millones de ahos para surgir 
en nuestro mundo y, ademas, solo ha sido capaz de aparecer a partir de la 
evolucion de las especies tras multiples mutaciones, por lo que pretender 
generarlo desde cero resulta practicamente ridfculo. 

Si vemos como ha ido evolucionando nuestro mundo, podemos darnos 
cuenta de algunos motivos por los que los seres humanos han sido capaces de 
situarse como el sistema mejor adaptado y supuestamente mas inteligente: 

1. Su capacidad para identificar, a partir de problemas o situaciones an- 
teriores, una relacion (si existiera) con el problema al que se estan 
enfrentando y utilizar esta informacion a su favor. 

2. Su capacidad para crear rapidamente nuevas estrategias acordes a los 
nuevos problemas a los que se enfrenten. El ser humano es capaz de 
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construir, a partir de pocos intentos, una estrategia (aunque normal- 
mente no optima) que le permite resolver satisfactoriamente cada nuevo 
problema al que se enfrenta. 

3. Su facilidad para relacionarse con distintos individuos y tomar ventaja 
de ello. Estas relaciones han permitido que los seres humanos cooperen 
para conseguir resolver con mayor eficacia los problemas a los que se 
han ido enfrentando durante su existencia. 

Si estos son algunos de los motivos que han permitido a los seres hu- 
manos situarse como el sistema (supuestamente) mas inteligente de nuestro 
planeta, resulta sensato que un sistema de evaluacion de inteligencia propor- 
cione (como mmimo) entornos en donde cualquier sujeto, en funcion de su 
capacidad sobre alguna o todas estas caracteristicas, pueda resolverlos con 
mayor o menor eficacia. 

Otro de los problemas de este sistema de evaluacion, es que la aproxima- 
cion del nivel de inteligencia que ofrece resulta poco liable ya que, al parar la 
evaluacion demasiado pronto es posible que el resultado obtenido diste de su 
inteligencia real. Ademas, este test deberia ser capaz de medir de alguna for- 
ma la velocidad de aprendizaj^ ya que, conforme menos tiempo requieran 
los sujetos para resolver nuevos problemas, mas inteligentes seran. 

A partir de esta discusion podemos concluir que como no todos los tipos 
de sistemas inteligentes tienen las mismas capacidades: (1) necesitamos una 
distribucion que nos permita obtener entornos que se puedan adaptar me- 
jor a los sujetos que estamos evaluando (una distribucion adaptativa), (2) 
conseguir introducir entornos mas generales que incluyan (entre otras cosas) 
algun tipo de comport amiento social y adquisicion incremental de conoci- 
miento y (3) una interpretacion liable de los resultados obtenidos durante la 
evaluacion. A continuacion vemos estas perspectivas. 



7.1. Mejor adaptacion de la complejidad 

Con la forma actual de incrementar la complejidad de los entornos que 
se les proporciona a los agentes, se requerira de mucho tiempo para llegar a 
sus niveles de inteligencia. 

Para comprender mejor el alcance de este problema imaginemos, por 
ejemplo, que se estan evaluando a dos tipos distintos de agentes: humanos y 
burros (por ser un animal supuestamente poco inteligente), y que los entor- 
nos que ofrece esta clase de entornos son laberintos cuya complejidad viene 

^Esta velocidad no deberia medirse con respecto al tiempo flsico, ya que si dos maquinas 
tratasen de resolver un mismo problema utilizando la misma tecnica (por ejemplo, fuerza 
bruta) no se demostraria mayor inteligencia si una terminase en menos tiempo por poseer 
un hardware mas rapido. En su lugar, esta velocidad deberia medirse mas bien con respecto 
al niimero de interacciones empleados en su resolucion. 
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dada en funcion del numero de paredes que posee; de modo que si existen 
n paredes, entonces el laberinto sera de complejidad n. Segun la distribu- 
cion utilizada (incrementar de 1 en 1 el numero de paredes que posee el 
laberinto) , se llegara (relativamente) rapido al numero de paredes necesarias 
para evaluar a los burros. Sin embargo, los humanos tambien deberan ser 
evaluados en los mismos laberintos en los que fueron evaluados los burros, 
cuando los laberintos que poseen el numero de paredes necesario para llegar 
a la inteligencia de los humanos se encuentran muy alejados a los que esta 
realizando. Esta forma de proporcionar los entornos supone una perdida de 
tiempo al tratar de evaluar a sistemas mas inteligentes, ya que inicialmente 
deberan enfrentarse a problemas muy simples durante mucho tiempo. 

Debido a esto, es necesario disponer de un sistema que adapte mas rapi- 
damente la complejidad de los entornos para converger mas rapidamente a los 
niveles de inteligencia de cualquier sistema inteligente que se este evaluando. 

7.2. Comportamiento social 

En |15] aparece una posible solucion al problema de insertar comporta- 
miento social en la clase de entornos. En este articulo se discute que, como 
resultaria una tarea de miles de ahos conseguir generar agentes con compor- 
tamiento social, una solucion seria utilizar los propios algoritmos evaluados 
como agentes en los nuevos entornos. Utilizando estos agentes podemos dis- 
poner instantaneamente de comportamiento complejo en lugar de tener que 
esperar tantos afios para conseguir algunos agentes, los cuales, con casi total 
probabilidad, seran muchisimo menos inteligentes. Ademas, con esta aproxi- 
macion se conseguira obtener un amplio numero de agentes con complejida- 
des muy variadas, que permitiran construir un amplio rango de entornos con 
muy distintas complejidades. 

7.3. Fiabilidad de los resultados 

Los tests adaptativos se van autoajustando en funcion de los resultados 
de los agentes, de modo que las complejidades de los ejercicios que se propo- 
nen van sufriendo grandes altibajos durante el comienzo del test, hasta que, 
finalmente, llegan al nivel del sujeto que estan evaluando. Al igual que las 
complejidades de estos ejercicios, las estimaciones de la inteligencia obtenidas 
utilizando esta distribucion sufriran tambien grandes altibajos. 

Este proyecto propone utilizar un valor con el que aproximar la inteli- 
gencia en funcion de los resultados obtenidos en los ejercicios. Sin embargo, 
solo con este valor no se puede aproximar su inteligencia de forma fiable. 

Veamos dos situaciones que reflejan este problema: (1) Un agente se ha 
evaluado en varios entornos y, mientras sus resultados continuan oscilando 
se detiene su evaluacion, obteniendose asi un resultado para su inteligencia 
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de 0,47. (2) Otro agente ha sido evaluado en el mismo numero de entornos (y 
posiblemente de tiempo) y claramente se puede observar que su resultado es 
mas estable en torno a 0,47. Podemos ver ambas situaciones en la Figura 7.1 




Figura 7.1: Inteligencia estimada tras evaluar a dos agentes durante el mismo 
periodo. Izquierda: Resultado oscilante. Derecha: Resultado convergente. 

Obviamente no podemos asegurar que ambos agentes sean igual de inteli- 
gentes, aun obteniendo el mismo resultado en la misma cantidad de entornos. 

Imaginemos que al agente de la segunda situacion se le sigue evaluando, 
es posible que sus resultados comiencen a mejorar lentamente ya que, al 
haber sido evaluado en tantos entornos, comienza a comprender mejor como 



obtener mejores resultados. Podemos ver esta situacion en la Figura 7.2 



1,00-1 



0,75- 




Periodo de evaluacion transcurrido 



Figura 7.2: Mejora de rendimiento creciente tras comprender mejor el fun- 
cionamiento de los ejercicios. 
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Es de esperar que esta mejora paulatina acabe finalmente estabilizandose 
en un valor, ya que el agcntc no sera lo suficientemente inteligente como 
para poder mejorar mas en entornos muy complejos. No obstante, mientras 
tanto no se haya estabilizado completamente, el resultado obtenido no se 
correspondera con su inteligencia real. 

Necesitamos, ademas del valor aproximado de la inteligencia, un nuevo 
valor que nos indique lo cerca que se encuentra esta aproximacion con res- 
pecto a su inteligencia real. Una posible solucion seria calcular la varianza de 
los resultados, de modo que cuanto mas se estabilicen los resultados de los 
agentes, mas cerca se encontrara el valor aproximado de su inteligencia real. 
Algunas ideas desarrolladas en los IRT (Item Response Theory) podn'an ser 
utiles para resolver esta fait a de fiabilidad. 
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Capitulo 8 

Conclusiones y trabajo futuro 



Conclusiones 

Podemos analizar los resultados de esta tesis de master conforme a dos 
perspectivas diferentes: (1) el cumplimiento de los objetivos marcados y (2) 
el conocimiento que se ha adquirido a partir del desarrollo del proyecto y de 
los experimentos. 



1. Se han cumplido los objetivos iniciales de la Seccion 1.3 



■ La clase de entornos desarrollada ofrece resultados coherentes al 
evaluar un algoritmo de lA: Se puede apreciar como el algoritmo 
obtiene mejores resultados conforme va adaptando su comporta- 
miento a los entornos. Ademas, tras cierto periodo (de interac- 
ciones o de tiempo), los resultados obtenidos por un algoritmo 
claramente convergen a un valor. 

■ Los experimentos realizados nos muestran que el test no es capaz 
de discriminar correctamente a distintos tipos de sistemas en fun- 
cion de su inteligencia: Damos por sentado que los liumanos son 
mas inteligentes que el algoritmo de lA contra el que los hemos 
comparado. Sin embargo, este test no ha sido capaz de discrimi- 
nar correctamente esta diferencia, por lo que (en su estado actual) 
falla al tratar de evaluar la inteligencia universal. 

2. Hemos adquirido nuevo conocimiento a partir del trabajo realizado en 
esta tesis de master. 

■ Es posible realizar el mismo test a distintos tipos de sistemas 
inteligentes sin necesidad de que sea antropomorfico: Ya que a 
cada tipo de sistema le resulta mas natural interactuar con el test 
de manera distinta, lo unico que hay que hacer es proporcionar 
una interfaz adecuada al sujeto que se va a evaluar, sin necesidad 
de cambiar el test en si. 
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■ Tras evaluar un algoritmo de lA en distintos entornos con dis- 
tintas complejidades, hemos podido ver que existe una relacion 
(inversa) entre el rendimiento de Q-learning y la complejidad de 
los entornos y como este test es capaz de relacionarlo. 

■ El cambio de distribuciones universales desde entornos pasivos a 
entornos interactivos se encuentra en la direccion correcta, pero 
no es, por si sola, la solucion. A partir de los resultados obtenidos, 
podemos ver que estos test son capaces de medir 'algo' relacionado 
con la inteligencia, pero no podemos asegurar que lo que se mida 
sea realmente inteligencia, por lo que sera necesario generalizar 
aun mas estos tests para conseguirlo. 

■ Estos tests necesitan una distribucion (o clase de entornos) que 
ofrezcan una mayor probabilidad a la adquisicion incremental de 
conocimiento, a las capacidades sociales y a entornos mas reacti- 
vos. Sin embargo, tal y como se generan actualmente los entornos, 
resulta practicamente imposible conseguir obtener alguna de estas 
propiedades (y aun menos todas). 

■ Los entornos generados no permiten (en la practica) utilizar todo 
el potencial de la inteligencia, por lo que sera necesario generarlos 
siguiendo una nueva distribucion que se vaya adaptando mejor 
al nivel de inteligencia de los agentes evaluados, proporcionando 
entornos mas acordes a sus capacidades. 

Publicaciones 

Estas son las publicaciones generadas a partir de esta tesis de master: 

■ Evaluating a reinforcement learning algorithm with a general intelli- 
gence test j20j. 

■ Comparing humans and AI agents [19]. 

■ On more realistc environment distribution for defining, evaluating and 
developing intelligence |15] . 

Trabajo future 

A partir de las perspectivas vistas en el capitulo anterior y las conclusio- 
nes de este capitulo, podemos ver cual es el trabajo futuro que le depara a 
este proyecto. 

■ Generar completamente los entornos de manera automatica sin nece- 
sidad de ninguna intervencion humana. Se deberan poder generar y 
construir automaticamente cualquier elemento de los entornos (espa- 
cios, objetos, agentes, . . . ). 
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■ Construir los tests a partir dc cjcrcicios, utilizando como base la com- 
plejidad dc los entornos y los rcsultados dc los agentes. 

■ Estimar la fiabilidad de los resultados obtenidos. 

■ Utilizar una distribucion mas adaptativa con la que converger mejor al 
nivel dc intcligcncia dc los agcntcs. 

■ Introducir automaticamente comportamiento social en los entornos, a 
partir de los algoritmos previamente evaluados. 

■ Evaluar nuevamente distintos tipos de sistemas inteligentes y compro- 
bar si los cambios realizados ofrecen resultados mas coherentes. 



91 



Apendice A 

Diagrama de clases 



Para hacernos una idea general de como esta diseiiado e implement ado 
el sistema de evaluacion del proyecto ANYNT, aqui vemos el diagrama de 
clases de los propios tests. Ademas, este diagrama de clases tambien contiene 
las clases disefiadas en esta tesis de master. Nos centramos unicamente en 
las clases mas importantes. 

En la Figura A.l podemos ver el diagrama de clases complete. 




Figura A.l: Diagrama de clases completo de la estructura interna del sistema 
de evaluacion. 

En los siguientes apartados vemos las clases mas importantes implemen- 
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tadas: Test, Exercise, LambdaEnvironment, Space y Agent. 



A.l. Test 

Esta clase representa al propio test en si. Tiene una referenda al ejer- 
cicio que se esta realizando y al agente que se evalua. Aunque aun no esta 
completamente implementado. Test sera el que estime la inteligencia de los 
agentes y se encargara de seleccionar la complejidad de los ejercicios de un 
modo adaptativo. 
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Figura A. 2: Diagrama de clases mostrando unicamente a Test y las clases 
con las que se relaciona. 



A. 2. Exercise (Ejercicio) 

Los ejercicios son los problemas a los que deberan enfrentarse los agentes 
durante el test. Estos ejercicios se componen del agente que se esta evaluando 
y del entorno con el que debera inter actuar. 



Estos ejercicios tienen ciertos parametros que se pueden configurar: 
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StepWaiting Indica como se esperara para pasar a la siguiente inter- 
accion si el agente que se est a evaluando no es humano. 

ExerciseType Indica la condicion que se tendra en cuenta para dar 
el ejercicio por concluido. 




Figura A. 3: Diagrama de clases mostrando unicamente a Exercise y las clases 
con las que se relaciona. 



A. 3. LambdaEnvironment (Clase de entornos A) 

Esta es la clase de entornos A disenada. Cada uno de estos entornos 
esta compuesto por un espacio y los agentes y objetos presentes durante el 
ejercicio. Como mmimo tendra a los dos agentes especiales Good y Evil y al 
agente evaluado. Estos entornos tratan de ser lo mas generales posibles, por 
lo que se pueden anadir (ademas de los tres agentes mencionados) todo tipo 
de objetos y agentes con los que interactuar. 

■ Los entornos tienen ciertos parametros que se pueden configurar: 

RewardsGenerator Agent Agentes que proporcionan las recompen- 

sas en el entorno (Good y Evil). 
RewardsProvider Calcula la recompensa que reciben los agentes en 

funcion de la politica que se haya elegido. 
DecreaseFactor Factor por el que se dividiran las recompensas tras 

cada interaccion. 
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ConsumeRewardsBefore. . . Las recompensas se consumen antes o 

despues de ser actualizadas. 
RewardsDisappear. . . Las recompensas desaparecen o no tras ser 

consumidas por un agente. 

Ademas, esta clase puede extenderse para construir, por ejemplo, en- 
tornos reactivos, en donde los objetos reaccionasen a las acciones de otros 
objetos. 





Figura A. 4: Diagrama de clases mostrando unicamente a LambdaEnviron- 
ment y las clases con las que se relaciona. 



A. 4. Space (Espacio) 

El espacio esta construido como un grafo dirigido con sus vertices (cel- 
das) y aristas (acciones/conexiones). Cada celda del espacio puede contener 
cualquier cantidad de objetos y contiene la recompensa de la celda. 

■ Esta clase es la encargada de generar y construir la topologia (celdas 
y acciones) del espacio, para ello utiliza las siguientes funciones: 

GenerateSpaceDescription Genera la descripcion de un nuevo es- 
pacio. 

ConstructSpace A partir de la descripcion de un espacio, construye 
su topologia. 
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GenerateSpace Genera un nuevo espacio utilizando las dos funciones 
anteriormente descritas. 

■ Ademas, la clase podra comprobar si el espacio construido a partir de 
la descripcion generada esta: 

Conectado Todas las celdas estan conectadas unas a otras a traves 
de acciones. 

Fuertemente conectado Existe un camino (siguiendo la direccion 
de las acciones) desde cualquier celda que conduce a cualquier 
otra celda del espacio. 
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Figura A. 5: Diagrama de clases mostrando unicamente a Space y las clases 
con las que se relaciona. 
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A. 5. Agent (Agente) 

Segun nuestra aproximacion, todos los agentes son objetos animados, por 
lo que tienen comport amiento propio con el que moverse a traves del espacio. 

■ Podemos ver los distintos tipos de agentes que existen: 
EvaluableAgent Agente que se va a evaluar. 

RewardGeneratorAgent Agentes recompensadores que dejan caer 
las recompensas en el entorno (Good y Evil). 

■ Para poder configurar el comport amiento de los agentes de una forma 
mas versatil, hemos dividido su comportamiento en dos clases: 

Agent Behaviour A partir de la observacion que se le proporcione, 

devolvera el siguiente movimiento a realizar. 
lAgentMoveControUer Controla cuales y cuantos de los movimien- 

tos que realizara el agente en cada interaccion. 

Ademas, el agente dispondra de un historial con informacion de sus ul- 
timas interacciones. Se puede controlar la cantidad de interacciones que el 
agente es capaz de 'recordar'; desde unicamente la ultima interaccion reali- 
zada, hasta todas ellas. 




Figura A. 6: Diagrama de clases mostrando unicamente a Agent y las clases 
con las que se relaciona. 
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